Branch data Line data Source code
1 : : /* Loop invariant motion.
2 : : Copyright (C) 2003-2025 Free Software Foundation, Inc.
3 : :
4 : : This file is part of GCC.
5 : :
6 : : GCC is free software; you can redistribute it and/or modify it
7 : : under the terms of the GNU General Public License as published by the
8 : : Free Software Foundation; either version 3, or (at your option) any
9 : : later version.
10 : :
11 : : GCC is distributed in the hope that it will be useful, but WITHOUT
12 : : ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or
13 : : FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License
14 : : for more details.
15 : :
16 : : You should have received a copy of the GNU General Public License
17 : : along with GCC; see the file COPYING3. If not see
18 : : <http://www.gnu.org/licenses/>. */
19 : :
20 : : #include "config.h"
21 : : #include "system.h"
22 : : #include "coretypes.h"
23 : : #include "backend.h"
24 : : #include "tree.h"
25 : : #include "gimple.h"
26 : : #include "cfghooks.h"
27 : : #include "tree-pass.h"
28 : : #include "ssa.h"
29 : : #include "gimple-pretty-print.h"
30 : : #include "fold-const.h"
31 : : #include "cfganal.h"
32 : : #include "tree-eh.h"
33 : : #include "gimplify.h"
34 : : #include "gimple-iterator.h"
35 : : #include "tree-cfg.h"
36 : : #include "tree-ssa-loop-manip.h"
37 : : #include "tree-ssa-loop.h"
38 : : #include "tree-into-ssa.h"
39 : : #include "cfgloop.h"
40 : : #include "tree-affine.h"
41 : : #include "tree-ssa-propagate.h"
42 : : #include "trans-mem.h"
43 : : #include "gimple-fold.h"
44 : : #include "tree-scalar-evolution.h"
45 : : #include "tree-ssa-loop-niter.h"
46 : : #include "alias.h"
47 : : #include "builtins.h"
48 : : #include "tree-dfa.h"
49 : : #include "tree-ssa.h"
50 : : #include "dbgcnt.h"
51 : : #include "insn-codes.h"
52 : : #include "optabs-tree.h"
53 : :
54 : : /* TODO: Support for predicated code motion. I.e.
55 : :
56 : : while (1)
57 : : {
58 : : if (cond)
59 : : {
60 : : a = inv;
61 : : something;
62 : : }
63 : : }
64 : :
65 : : Where COND and INV are invariants, but evaluating INV may trap or be
66 : : invalid from some other reason if !COND. This may be transformed to
67 : :
68 : : if (cond)
69 : : a = inv;
70 : : while (1)
71 : : {
72 : : if (cond)
73 : : something;
74 : : } */
75 : :
76 : : /* The auxiliary data kept for each statement. */
77 : :
78 : : struct lim_aux_data
79 : : {
80 : : class loop *max_loop; /* The outermost loop in that the statement
81 : : is invariant. */
82 : :
83 : : class loop *tgt_loop; /* The loop out of that we want to move the
84 : : invariant. */
85 : :
86 : : class loop *always_executed_in;
87 : : /* The outermost loop for that we are sure
88 : : the statement is executed if the loop
89 : : is entered. */
90 : :
91 : : unsigned cost; /* Cost of the computation performed by the
92 : : statement. */
93 : :
94 : : unsigned ref; /* The simple_mem_ref in this stmt or 0. */
95 : :
96 : : vec<gimple *> depends; /* Vector of statements that must be also
97 : : hoisted out of the loop when this statement
98 : : is hoisted; i.e. those that define the
99 : : operands of the statement and are inside of
100 : : the MAX_LOOP loop. */
101 : : };
102 : :
103 : : /* Maps statements to their lim_aux_data. */
104 : :
105 : : static hash_map<gimple *, lim_aux_data *> *lim_aux_data_map;
106 : :
107 : : /* Description of a memory reference location. */
108 : :
109 : : struct mem_ref_loc
110 : : {
111 : : tree *ref; /* The reference itself. */
112 : : gimple *stmt; /* The statement in that it occurs. */
113 : : };
114 : :
115 : :
116 : : /* Description of a memory reference. */
117 : :
118 : : class im_mem_ref
119 : : {
120 : : public:
121 : : unsigned id : 30; /* ID assigned to the memory reference
122 : : (its index in memory_accesses.refs_list) */
123 : : unsigned ref_canonical : 1; /* Whether mem.ref was canonicalized. */
124 : : unsigned ref_decomposed : 1; /* Whether the ref was hashed from mem. */
125 : : hashval_t hash; /* Its hash value. */
126 : :
127 : : /* The memory access itself and associated caching of alias-oracle
128 : : query meta-data. We are using mem.ref == error_mark_node for the
129 : : case the reference is represented by its single access stmt
130 : : in accesses_in_loop[0]. */
131 : : ao_ref mem;
132 : :
133 : : bitmap stored; /* The set of loops in that this memory location
134 : : is stored to. */
135 : : bitmap loaded; /* The set of loops in that this memory location
136 : : is loaded from. */
137 : : vec<mem_ref_loc> accesses_in_loop;
138 : : /* The locations of the accesses. */
139 : :
140 : : /* The following set is computed on demand. */
141 : : bitmap_head dep_loop; /* The set of loops in that the memory
142 : : reference is {in,}dependent in
143 : : different modes. */
144 : : };
145 : :
146 : : static bool in_loop_pipeline;
147 : :
148 : : /* We use six bits per loop in the ref->dep_loop bitmap to record
149 : : the dep_kind x dep_state combinations. */
150 : :
151 : : enum dep_kind { lim_raw, sm_war, sm_waw };
152 : : enum dep_state { dep_unknown, dep_independent, dep_dependent };
153 : :
154 : : /* coldest outermost loop for given loop. */
155 : : vec<class loop *> coldest_outermost_loop;
156 : : /* hotter outer loop nearest to given loop. */
157 : : vec<class loop *> hotter_than_inner_loop;
158 : :
159 : : /* Populate the loop dependence cache of REF for LOOP, KIND with STATE. */
160 : :
161 : : static void
162 : 1834586 : record_loop_dependence (class loop *loop, im_mem_ref *ref,
163 : : dep_kind kind, dep_state state)
164 : : {
165 : 1834586 : gcc_assert (state != dep_unknown);
166 : 1834586 : unsigned bit = 6 * loop->num + kind * 2 + state == dep_dependent ? 1 : 0;
167 : 1834586 : bitmap_set_bit (&ref->dep_loop, bit);
168 : 1834586 : }
169 : :
170 : : /* Query the loop dependence cache of REF for LOOP, KIND. */
171 : :
172 : : static dep_state
173 : 615394 : query_loop_dependence (class loop *loop, im_mem_ref *ref, dep_kind kind)
174 : : {
175 : 615394 : unsigned first_bit = 6 * loop->num + kind * 2;
176 : 615394 : if (bitmap_bit_p (&ref->dep_loop, first_bit))
177 : : return dep_independent;
178 : 615394 : else if (bitmap_bit_p (&ref->dep_loop, first_bit + 1))
179 : 0 : return dep_dependent;
180 : : return dep_unknown;
181 : : }
182 : :
183 : : /* Mem_ref hashtable helpers. */
184 : :
185 : : struct mem_ref_hasher : nofree_ptr_hash <im_mem_ref>
186 : : {
187 : : typedef ao_ref *compare_type;
188 : : static inline hashval_t hash (const im_mem_ref *);
189 : : static inline bool equal (const im_mem_ref *, const ao_ref *);
190 : : };
191 : :
192 : : /* A hash function for class im_mem_ref object OBJ. */
193 : :
194 : : inline hashval_t
195 : 10810355 : mem_ref_hasher::hash (const im_mem_ref *mem)
196 : : {
197 : 10810355 : return mem->hash;
198 : : }
199 : :
200 : : /* An equality function for class im_mem_ref object MEM1 with
201 : : memory reference OBJ2. */
202 : :
203 : : inline bool
204 : 12611642 : mem_ref_hasher::equal (const im_mem_ref *mem1, const ao_ref *obj2)
205 : : {
206 : 12611642 : if (obj2->max_size_known_p ())
207 : 11062963 : return (mem1->ref_decomposed
208 : 10545008 : && ((TREE_CODE (mem1->mem.base) == MEM_REF
209 : 4455887 : && TREE_CODE (obj2->base) == MEM_REF
210 : 2774148 : && operand_equal_p (TREE_OPERAND (mem1->mem.base, 0),
211 : 2774148 : TREE_OPERAND (obj2->base, 0), 0)
212 : 12821620 : && known_eq (mem_ref_offset (mem1->mem.base) * BITS_PER_UNIT + mem1->mem.offset,
213 : : mem_ref_offset (obj2->base) * BITS_PER_UNIT + obj2->offset))
214 : 10121720 : || (operand_equal_p (mem1->mem.base, obj2->base, 0)
215 : 823781 : && known_eq (mem1->mem.offset, obj2->offset)))
216 : 920783 : && known_eq (mem1->mem.size, obj2->size)
217 : 918316 : && known_eq (mem1->mem.max_size, obj2->max_size)
218 : 918316 : && mem1->mem.volatile_p == obj2->volatile_p
219 : 918300 : && (mem1->mem.ref_alias_set == obj2->ref_alias_set
220 : : /* We are not canonicalizing alias-sets but for the
221 : : special-case we didn't canonicalize yet and the
222 : : incoming ref is a alias-set zero MEM we pick
223 : : the correct one already. */
224 : 8757 : || (!mem1->ref_canonical
225 : 8162 : && (TREE_CODE (obj2->ref) == MEM_REF
226 : 8162 : || TREE_CODE (obj2->ref) == TARGET_MEM_REF)
227 : 5460 : && obj2->ref_alias_set == 0)
228 : : /* Likewise if there's a canonical ref with alias-set zero. */
229 : 7764 : || (mem1->ref_canonical && mem1->mem.ref_alias_set == 0))
230 : 11973551 : && types_compatible_p (TREE_TYPE (mem1->mem.ref),
231 : 910588 : TREE_TYPE (obj2->ref)));
232 : : else
233 : 1548679 : return operand_equal_p (mem1->mem.ref, obj2->ref, 0);
234 : : }
235 : :
236 : :
237 : : /* Description of memory accesses in loops. */
238 : :
239 : : static struct
240 : : {
241 : : /* The hash table of memory references accessed in loops. */
242 : : hash_table<mem_ref_hasher> *refs;
243 : :
244 : : /* The list of memory references. */
245 : : vec<im_mem_ref *> refs_list;
246 : :
247 : : /* The set of memory references accessed in each loop. */
248 : : vec<bitmap_head> refs_loaded_in_loop;
249 : :
250 : : /* The set of memory references stored in each loop. */
251 : : vec<bitmap_head> refs_stored_in_loop;
252 : :
253 : : /* The set of memory references stored in each loop, including subloops . */
254 : : vec<bitmap_head> all_refs_stored_in_loop;
255 : :
256 : : /* Cache for expanding memory addresses. */
257 : : hash_map<tree, name_expansion *> *ttae_cache;
258 : : } memory_accesses;
259 : :
260 : : /* Obstack for the bitmaps in the above data structures. */
261 : : static bitmap_obstack lim_bitmap_obstack;
262 : : static obstack mem_ref_obstack;
263 : :
264 : : static bool ref_indep_loop_p (class loop *, im_mem_ref *, dep_kind);
265 : : static bool ref_always_accessed_p (class loop *, im_mem_ref *, bool);
266 : : static bool refs_independent_p (im_mem_ref *, im_mem_ref *, bool = true);
267 : :
268 : : /* Minimum cost of an expensive expression. */
269 : : #define LIM_EXPENSIVE ((unsigned) param_lim_expensive)
270 : :
271 : : /* The outermost loop for which execution of the header guarantees that the
272 : : block will be executed. */
273 : : #define ALWAYS_EXECUTED_IN(BB) ((class loop *) (BB)->aux)
274 : : #define SET_ALWAYS_EXECUTED_IN(BB, VAL) ((BB)->aux = (void *) (VAL))
275 : :
276 : : /* ID of the shared unanalyzable mem. */
277 : : #define UNANALYZABLE_MEM_ID 0
278 : :
279 : : /* Whether the reference was analyzable. */
280 : : #define MEM_ANALYZABLE(REF) ((REF)->id != UNANALYZABLE_MEM_ID)
281 : :
282 : : static struct lim_aux_data *
283 : 17807868 : init_lim_data (gimple *stmt)
284 : : {
285 : 17807868 : lim_aux_data *p = XCNEW (struct lim_aux_data);
286 : 17807868 : lim_aux_data_map->put (stmt, p);
287 : :
288 : 17807868 : return p;
289 : : }
290 : :
291 : : static struct lim_aux_data *
292 : 94085910 : get_lim_data (gimple *stmt)
293 : : {
294 : 94085910 : lim_aux_data **p = lim_aux_data_map->get (stmt);
295 : 94085910 : if (!p)
296 : : return NULL;
297 : :
298 : 47883832 : return *p;
299 : : }
300 : :
301 : : /* Releases the memory occupied by DATA. */
302 : :
303 : : static void
304 : 17807717 : free_lim_aux_data (struct lim_aux_data *data)
305 : : {
306 : 0 : data->depends.release ();
307 : 17807717 : free (data);
308 : 0 : }
309 : :
310 : : static void
311 : 17807717 : clear_lim_data (gimple *stmt)
312 : : {
313 : 17807717 : lim_aux_data **p = lim_aux_data_map->get (stmt);
314 : 17807717 : if (!p)
315 : : return;
316 : :
317 : 17807717 : free_lim_aux_data (*p);
318 : 17807717 : *p = NULL;
319 : : }
320 : :
321 : :
322 : : /* The possibilities of statement movement. */
323 : : enum move_pos
324 : : {
325 : : MOVE_IMPOSSIBLE, /* No movement -- side effect expression. */
326 : : MOVE_PRESERVE_EXECUTION, /* Must not cause the non-executed statement
327 : : become executed -- memory accesses, ... */
328 : : MOVE_POSSIBLE /* Unlimited movement. */
329 : : };
330 : :
331 : :
332 : : /* If it is possible to hoist the statement STMT unconditionally,
333 : : returns MOVE_POSSIBLE.
334 : : If it is possible to hoist the statement STMT, but we must avoid making
335 : : it executed if it would not be executed in the original program (e.g.
336 : : because it may trap), return MOVE_PRESERVE_EXECUTION.
337 : : Otherwise return MOVE_IMPOSSIBLE. */
338 : :
339 : : static enum move_pos
340 : 46802340 : movement_possibility_1 (gimple *stmt)
341 : : {
342 : 46802340 : tree lhs;
343 : 46802340 : enum move_pos ret = MOVE_POSSIBLE;
344 : :
345 : 46802340 : if (flag_unswitch_loops
346 : 46802340 : && gimple_code (stmt) == GIMPLE_COND)
347 : : {
348 : : /* If we perform unswitching, force the operands of the invariant
349 : : condition to be moved out of the loop. */
350 : : return MOVE_POSSIBLE;
351 : : }
352 : :
353 : 46480812 : if (gimple_code (stmt) == GIMPLE_PHI
354 : 2636678 : && gimple_phi_num_args (stmt) <= 2
355 : 4975930 : && !virtual_operand_p (gimple_phi_result (stmt))
356 : 47941167 : && !SSA_NAME_OCCURS_IN_ABNORMAL_PHI (gimple_phi_result (stmt)))
357 : : return MOVE_POSSIBLE;
358 : :
359 : 45020678 : if (gimple_get_lhs (stmt) == NULL_TREE)
360 : : return MOVE_IMPOSSIBLE;
361 : :
362 : 31801004 : if (gimple_vdef (stmt))
363 : : return MOVE_IMPOSSIBLE;
364 : :
365 : 13271396 : if (stmt_ends_bb_p (stmt)
366 : 12051577 : || gimple_has_volatile_ops (stmt)
367 : 13202242 : || gimple_has_side_effects (stmt)
368 : 26468586 : || stmt_could_throw_p (cfun, stmt))
369 : 429978 : return MOVE_IMPOSSIBLE;
370 : :
371 : 12841418 : if (is_gimple_call (stmt))
372 : : {
373 : : /* While pure or const call is guaranteed to have no side effects, we
374 : : cannot move it arbitrarily. Consider code like
375 : :
376 : : char *s = something ();
377 : :
378 : : while (1)
379 : : {
380 : : if (s)
381 : : t = strlen (s);
382 : : else
383 : : t = 0;
384 : : }
385 : :
386 : : Here the strlen call cannot be moved out of the loop, even though
387 : : s is invariant. In addition to possibly creating a call with
388 : : invalid arguments, moving out a function call that is not executed
389 : : may cause performance regressions in case the call is costly and
390 : : not executed at all. */
391 : 133959 : ret = MOVE_PRESERVE_EXECUTION;
392 : 133959 : lhs = gimple_call_lhs (stmt);
393 : : }
394 : 12707459 : else if (is_gimple_assign (stmt))
395 : 11530915 : lhs = gimple_assign_lhs (stmt);
396 : : else
397 : : return MOVE_IMPOSSIBLE;
398 : :
399 : 11664874 : if (TREE_CODE (lhs) == SSA_NAME
400 : 11664874 : && SSA_NAME_OCCURS_IN_ABNORMAL_PHI (lhs))
401 : : return MOVE_IMPOSSIBLE;
402 : :
403 : 11664664 : if (TREE_CODE (lhs) != SSA_NAME
404 : 11664664 : || gimple_could_trap_p (stmt))
405 : 2451425 : return MOVE_PRESERVE_EXECUTION;
406 : :
407 : 9213239 : if (is_gimple_assign (stmt))
408 : : {
409 : 9080482 : auto code = gimple_assign_rhs_code (stmt);
410 : 9080482 : tree type = TREE_TYPE (gimple_assign_rhs1 (stmt));
411 : : /* For shifts and rotates and possibly out-of-bound shift operands
412 : : we currently cannot rewrite them into something unconditionally
413 : : well-defined. */
414 : 9080482 : if ((code == LSHIFT_EXPR
415 : : || code == RSHIFT_EXPR
416 : : || code == LROTATE_EXPR
417 : 9080482 : || code == RROTATE_EXPR)
418 : 9080482 : && (TREE_CODE (gimple_assign_rhs2 (stmt)) != INTEGER_CST
419 : : /* We cannot use ranges at 'stmt' here. */
420 : 141137 : || wi::ltu_p (wi::to_wide (gimple_assign_rhs2 (stmt)),
421 : 9041272 : element_precision (type))))
422 : 180347 : ret = MOVE_PRESERVE_EXECUTION;
423 : : }
424 : :
425 : : /* Non local loads in a transaction cannot be hoisted out. Well,
426 : : unless the load happens on every path out of the loop, but we
427 : : don't take this into account yet. */
428 : 9213239 : if (flag_tm
429 : 428 : && gimple_in_transaction (stmt)
430 : 9213339 : && gimple_assign_single_p (stmt))
431 : : {
432 : 18 : tree rhs = gimple_assign_rhs1 (stmt);
433 : 18 : if (DECL_P (rhs) && is_global_var (rhs))
434 : : {
435 : 18 : if (dump_file)
436 : : {
437 : 2 : fprintf (dump_file, "Cannot hoist conditional load of ");
438 : 2 : print_generic_expr (dump_file, rhs, TDF_SLIM);
439 : 2 : fprintf (dump_file, " because it is in a transaction.\n");
440 : : }
441 : 18 : return MOVE_IMPOSSIBLE;
442 : : }
443 : : }
444 : :
445 : : return ret;
446 : : }
447 : :
448 : : static enum move_pos
449 : 46802340 : movement_possibility (gimple *stmt)
450 : : {
451 : 46802340 : enum move_pos pos = movement_possibility_1 (stmt);
452 : 46802340 : if (pos == MOVE_POSSIBLE)
453 : : {
454 : 10681779 : use_operand_p use_p;
455 : 10681779 : ssa_op_iter ssa_iter;
456 : 34611929 : FOR_EACH_PHI_OR_STMT_USE (use_p, stmt, ssa_iter, SSA_OP_USE)
457 : 13265899 : if (TREE_CODE (USE_FROM_PTR (use_p)) == SSA_NAME
458 : 13265899 : && ssa_name_maybe_undef_p (USE_FROM_PTR (use_p)))
459 : 17528 : return MOVE_PRESERVE_EXECUTION;
460 : : }
461 : : return pos;
462 : : }
463 : :
464 : :
465 : : /* Compare the profile count inequality of bb and loop's preheader, it is
466 : : three-state as stated in profile-count.h, FALSE is returned if inequality
467 : : cannot be decided. */
468 : : bool
469 : 13810768 : bb_colder_than_loop_preheader (basic_block bb, class loop *loop)
470 : : {
471 : 13810768 : gcc_assert (bb && loop);
472 : 13810768 : return bb->count < loop_preheader_edge (loop)->src->count;
473 : : }
474 : :
475 : : /* Check coldest loop between OUTERMOST_LOOP and LOOP by comparing profile
476 : : count.
477 : : It does three steps check:
478 : : 1) Check whether CURR_BB is cold in it's own loop_father, if it is cold, just
479 : : return NULL which means it should not be moved out at all;
480 : : 2) CURR_BB is NOT cold, check if pre-computed COLDEST_LOOP is outside of
481 : : OUTERMOST_LOOP, if it is inside of OUTERMOST_LOOP, return the COLDEST_LOOP;
482 : : 3) If COLDEST_LOOP is outside of OUTERMOST_LOOP, check whether there is a
483 : : hotter loop between OUTERMOST_LOOP and loop in pre-computed
484 : : HOTTER_THAN_INNER_LOOP, return it's nested inner loop, otherwise return
485 : : OUTERMOST_LOOP.
486 : : At last, the coldest_loop is inside of OUTERMOST_LOOP, just return it as
487 : : the hoist target. */
488 : :
489 : : static class loop *
490 : 12190810 : get_coldest_out_loop (class loop *outermost_loop, class loop *loop,
491 : : basic_block curr_bb)
492 : : {
493 : 12190810 : gcc_assert (outermost_loop == loop
494 : : || flow_loop_nested_p (outermost_loop, loop));
495 : :
496 : : /* If bb_colder_than_loop_preheader returns false due to three-state
497 : : comparision, OUTERMOST_LOOP is returned finally to preserve the behavior.
498 : : Otherwise, return the coldest loop between OUTERMOST_LOOP and LOOP. */
499 : 12190810 : if (curr_bb && bb_colder_than_loop_preheader (curr_bb, loop))
500 : : return NULL;
501 : :
502 : 11035225 : class loop *coldest_loop = coldest_outermost_loop[loop->num];
503 : 22070450 : if (loop_depth (coldest_loop) < loop_depth (outermost_loop))
504 : : {
505 : 236337 : class loop *hotter_loop = hotter_than_inner_loop[loop->num];
506 : 236337 : if (!hotter_loop
507 : 242810 : || loop_depth (hotter_loop) < loop_depth (outermost_loop))
508 : : return outermost_loop;
509 : :
510 : : /* hotter_loop is between OUTERMOST_LOOP and LOOP like:
511 : : [loop tree root, ..., coldest_loop, ..., outermost_loop, ...,
512 : : hotter_loop, second_coldest_loop, ..., loop]
513 : : return second_coldest_loop to be the hoist target. */
514 : 3 : class loop *aloop;
515 : 3 : for (aloop = hotter_loop->inner; aloop; aloop = aloop->next)
516 : 3 : if (aloop == loop || flow_loop_nested_p (aloop, loop))
517 : 3 : return aloop;
518 : : }
519 : : return coldest_loop;
520 : : }
521 : :
522 : : /* Suppose that operand DEF is used inside the LOOP. Returns the outermost
523 : : loop to that we could move the expression using DEF if it did not have
524 : : other operands, i.e. the outermost loop enclosing LOOP in that the value
525 : : of DEF is invariant. */
526 : :
527 : : static class loop *
528 : 19222809 : outermost_invariant_loop (tree def, class loop *loop)
529 : : {
530 : 19222809 : gimple *def_stmt;
531 : 19222809 : basic_block def_bb;
532 : 19222809 : class loop *max_loop;
533 : 19222809 : struct lim_aux_data *lim_data;
534 : :
535 : 19222809 : if (!def)
536 : 867915 : return superloop_at_depth (loop, 1);
537 : :
538 : 18354894 : if (TREE_CODE (def) != SSA_NAME)
539 : : {
540 : 3881974 : gcc_assert (is_gimple_min_invariant (def));
541 : 3881974 : return superloop_at_depth (loop, 1);
542 : : }
543 : :
544 : 14472920 : def_stmt = SSA_NAME_DEF_STMT (def);
545 : 14472920 : def_bb = gimple_bb (def_stmt);
546 : 14472920 : if (!def_bb)
547 : 69950 : return superloop_at_depth (loop, 1);
548 : :
549 : 14402970 : max_loop = find_common_loop (loop, def_bb->loop_father);
550 : :
551 : 14402970 : lim_data = get_lim_data (def_stmt);
552 : 14402970 : if (lim_data != NULL && lim_data->max_loop != NULL)
553 : 656885 : max_loop = find_common_loop (max_loop,
554 : : loop_outer (lim_data->max_loop));
555 : 14402970 : if (max_loop == loop)
556 : : return NULL;
557 : 1792790 : max_loop = superloop_at_depth (loop, loop_depth (max_loop) + 1);
558 : :
559 : 1792790 : return max_loop;
560 : : }
561 : :
562 : : /* DATA is a structure containing information associated with a statement
563 : : inside LOOP. DEF is one of the operands of this statement.
564 : :
565 : : Find the outermost loop enclosing LOOP in that value of DEF is invariant
566 : : and record this in DATA->max_loop field. If DEF itself is defined inside
567 : : this loop as well (i.e. we need to hoist it out of the loop if we want
568 : : to hoist the statement represented by DATA), record the statement in that
569 : : DEF is defined to the DATA->depends list. Additionally if ADD_COST is true,
570 : : add the cost of the computation of DEF to the DATA->cost.
571 : :
572 : : If DEF is not invariant in LOOP, return false. Otherwise return TRUE. */
573 : :
574 : : static bool
575 : 11210645 : add_dependency (tree def, struct lim_aux_data *data, class loop *loop,
576 : : bool add_cost)
577 : : {
578 : 11210645 : gimple *def_stmt = SSA_NAME_DEF_STMT (def);
579 : 11210645 : basic_block def_bb = gimple_bb (def_stmt);
580 : 11210645 : class loop *max_loop;
581 : 11210645 : struct lim_aux_data *def_data;
582 : :
583 : 11210645 : if (!def_bb)
584 : : return true;
585 : :
586 : 10940632 : max_loop = outermost_invariant_loop (def, loop);
587 : 10940632 : if (!max_loop)
588 : : return false;
589 : :
590 : 1351719 : if (flow_loop_nested_p (data->max_loop, max_loop))
591 : 421095 : data->max_loop = max_loop;
592 : :
593 : 1351719 : def_data = get_lim_data (def_stmt);
594 : 1351719 : if (!def_data)
595 : : return true;
596 : :
597 : 650513 : if (add_cost
598 : : /* Only add the cost if the statement defining DEF is inside LOOP,
599 : : i.e. if it is likely that by moving the invariants dependent
600 : : on it, we will be able to avoid creating a new register for
601 : : it (since it will be only used in these dependent invariants). */
602 : 627215 : && def_bb->loop_father == loop)
603 : 437203 : data->cost += def_data->cost;
604 : :
605 : 650513 : data->depends.safe_push (def_stmt);
606 : :
607 : 650513 : return true;
608 : : }
609 : :
610 : : /* Returns an estimate for a cost of statement STMT. The values here
611 : : are just ad-hoc constants, similar to costs for inlining. */
612 : :
613 : : static unsigned
614 : 739715 : stmt_cost (gimple *stmt)
615 : : {
616 : : /* Always try to create possibilities for unswitching. */
617 : 739715 : if (gimple_code (stmt) == GIMPLE_COND
618 : 739715 : || gimple_code (stmt) == GIMPLE_PHI)
619 : 11917 : return LIM_EXPENSIVE;
620 : :
621 : : /* We should be hoisting calls if possible. */
622 : 727798 : if (is_gimple_call (stmt))
623 : : {
624 : 664 : tree fndecl;
625 : :
626 : : /* Unless the call is a builtin_constant_p; this always folds to a
627 : : constant, so moving it is useless. */
628 : 664 : fndecl = gimple_call_fndecl (stmt);
629 : 664 : if (fndecl && fndecl_built_in_p (fndecl, BUILT_IN_CONSTANT_P))
630 : : return 0;
631 : :
632 : 664 : return LIM_EXPENSIVE;
633 : : }
634 : :
635 : : /* Hoisting memory references out should almost surely be a win. */
636 : 727134 : if (gimple_references_memory_p (stmt))
637 : 63930 : return LIM_EXPENSIVE;
638 : :
639 : 663204 : if (gimple_code (stmt) != GIMPLE_ASSIGN)
640 : : return 1;
641 : :
642 : 663204 : enum tree_code code = gimple_assign_rhs_code (stmt);
643 : 663204 : switch (code)
644 : : {
645 : 114531 : case MULT_EXPR:
646 : 114531 : case WIDEN_MULT_EXPR:
647 : 114531 : case WIDEN_MULT_PLUS_EXPR:
648 : 114531 : case WIDEN_MULT_MINUS_EXPR:
649 : 114531 : case DOT_PROD_EXPR:
650 : 114531 : case TRUNC_DIV_EXPR:
651 : 114531 : case CEIL_DIV_EXPR:
652 : 114531 : case FLOOR_DIV_EXPR:
653 : 114531 : case ROUND_DIV_EXPR:
654 : 114531 : case EXACT_DIV_EXPR:
655 : 114531 : case CEIL_MOD_EXPR:
656 : 114531 : case FLOOR_MOD_EXPR:
657 : 114531 : case ROUND_MOD_EXPR:
658 : 114531 : case TRUNC_MOD_EXPR:
659 : 114531 : case RDIV_EXPR:
660 : : /* Division and multiplication are usually expensive. */
661 : 114531 : return LIM_EXPENSIVE;
662 : :
663 : 4153 : case LSHIFT_EXPR:
664 : 4153 : case RSHIFT_EXPR:
665 : 4153 : case WIDEN_LSHIFT_EXPR:
666 : 4153 : case LROTATE_EXPR:
667 : 4153 : case RROTATE_EXPR:
668 : : /* Shifts and rotates are usually expensive. */
669 : 4153 : return LIM_EXPENSIVE;
670 : :
671 : 534 : case COND_EXPR:
672 : 534 : case VEC_COND_EXPR:
673 : : /* Conditionals are expensive. */
674 : 534 : return LIM_EXPENSIVE;
675 : :
676 : 1523 : case CONSTRUCTOR:
677 : : /* Make vector construction cost proportional to the number
678 : : of elements. */
679 : 1523 : return CONSTRUCTOR_NELTS (gimple_assign_rhs1 (stmt));
680 : :
681 : : case SSA_NAME:
682 : : case PAREN_EXPR:
683 : : /* Whether or not something is wrapped inside a PAREN_EXPR
684 : : should not change move cost. Nor should an intermediate
685 : : unpropagated SSA name copy. */
686 : : return 0;
687 : :
688 : 507241 : default:
689 : : /* Comparisons are usually expensive. */
690 : 507241 : if (TREE_CODE_CLASS (code) == tcc_comparison)
691 : 7918 : return LIM_EXPENSIVE;
692 : : return 1;
693 : : }
694 : : }
695 : :
696 : : /* Finds the outermost loop between OUTER and LOOP in that the memory reference
697 : : REF is independent. If REF is not independent in LOOP, NULL is returned
698 : : instead. */
699 : :
700 : : static class loop *
701 : 711163 : outermost_indep_loop (class loop *outer, class loop *loop, im_mem_ref *ref)
702 : : {
703 : 711163 : class loop *aloop;
704 : :
705 : 711163 : if (ref->stored && bitmap_bit_p (ref->stored, loop->num))
706 : : return NULL;
707 : :
708 : 86046 : for (aloop = outer;
709 : 663763 : aloop != loop;
710 : 86046 : aloop = superloop_at_depth (loop, loop_depth (aloop) + 1))
711 : 9471 : if ((!ref->stored || !bitmap_bit_p (ref->stored, aloop->num))
712 : 101880 : && ref_indep_loop_p (aloop, ref, lim_raw))
713 : : return aloop;
714 : :
715 : 563609 : if (ref_indep_loop_p (loop, ref, lim_raw))
716 : : return loop;
717 : : else
718 : : return NULL;
719 : : }
720 : :
721 : : /* If there is a simple load or store to a memory reference in STMT, returns
722 : : the location of the memory reference, and sets IS_STORE according to whether
723 : : it is a store or load. Otherwise, returns NULL. */
724 : :
725 : : static tree *
726 : 7181494 : simple_mem_ref_in_stmt (gimple *stmt, bool *is_store)
727 : : {
728 : 7181494 : tree *lhs, *rhs;
729 : :
730 : : /* Recognize SSA_NAME = MEM and MEM = (SSA_NAME | invariant) patterns. */
731 : 7181494 : if (!gimple_assign_single_p (stmt))
732 : : return NULL;
733 : :
734 : 5890395 : lhs = gimple_assign_lhs_ptr (stmt);
735 : 5890395 : rhs = gimple_assign_rhs1_ptr (stmt);
736 : :
737 : 9085184 : if (TREE_CODE (*lhs) == SSA_NAME && gimple_vuse (stmt))
738 : : {
739 : 3194789 : *is_store = false;
740 : 3194789 : return rhs;
741 : : }
742 : 2695606 : else if (gimple_vdef (stmt)
743 : 2695606 : && (TREE_CODE (*rhs) == SSA_NAME || is_gimple_min_invariant (*rhs)))
744 : : {
745 : 2051632 : *is_store = true;
746 : 2051632 : return lhs;
747 : : }
748 : : else
749 : 643974 : return NULL;
750 : : }
751 : :
752 : : /* From a controlling predicate in DOM determine the arguments from
753 : : the PHI node PHI that are chosen if the predicate evaluates to
754 : : true and false and store them to *TRUE_ARG_P and *FALSE_ARG_P if
755 : : they are non-NULL. Returns true if the arguments can be determined,
756 : : else return false. */
757 : :
758 : : static bool
759 : 13321 : extract_true_false_args_from_phi (basic_block dom, gphi *phi,
760 : : tree *true_arg_p, tree *false_arg_p)
761 : : {
762 : 13321 : edge te, fe;
763 : 13321 : if (! extract_true_false_controlled_edges (dom, gimple_bb (phi),
764 : : &te, &fe))
765 : : return false;
766 : :
767 : 11402 : if (true_arg_p)
768 : 907 : *true_arg_p = PHI_ARG_DEF (phi, te->dest_idx);
769 : 11402 : if (false_arg_p)
770 : 907 : *false_arg_p = PHI_ARG_DEF (phi, fe->dest_idx);
771 : :
772 : : return true;
773 : : }
774 : :
775 : : /* Determine the outermost loop to that it is possible to hoist a statement
776 : : STMT and store it to LIM_DATA (STMT)->max_loop. To do this we determine
777 : : the outermost loop in that the value computed by STMT is invariant.
778 : : If MUST_PRESERVE_EXEC is true, additionally choose such a loop that
779 : : we preserve the fact whether STMT is executed. It also fills other related
780 : : information to LIM_DATA (STMT).
781 : :
782 : : The function returns false if STMT cannot be hoisted outside of the loop it
783 : : is defined in, and true otherwise. */
784 : :
785 : : static bool
786 : 12147944 : determine_max_movement (gimple *stmt, bool must_preserve_exec)
787 : : {
788 : 12147944 : basic_block bb = gimple_bb (stmt);
789 : 12147944 : class loop *loop = bb->loop_father;
790 : 12147944 : class loop *level;
791 : 12147944 : struct lim_aux_data *lim_data = get_lim_data (stmt);
792 : 12147944 : tree val;
793 : 12147944 : ssa_op_iter iter;
794 : :
795 : 12147944 : if (must_preserve_exec)
796 : 1477981 : level = ALWAYS_EXECUTED_IN (bb);
797 : : else
798 : 10669963 : level = superloop_at_depth (loop, 1);
799 : 12147944 : lim_data->max_loop = get_coldest_out_loop (level, loop, bb);
800 : 12147944 : if (!lim_data->max_loop)
801 : : return false;
802 : :
803 : 10994033 : if (gphi *phi = dyn_cast <gphi *> (stmt))
804 : : {
805 : 1390831 : use_operand_p use_p;
806 : 1390831 : unsigned min_cost = UINT_MAX;
807 : 1390831 : unsigned total_cost = 0;
808 : 1390831 : struct lim_aux_data *def_data;
809 : :
810 : : /* We will end up promoting dependencies to be unconditionally
811 : : evaluated. For this reason the PHI cost (and thus the
812 : : cost we remove from the loop by doing the invariant motion)
813 : : is that of the cheapest PHI argument dependency chain. */
814 : 1618422 : FOR_EACH_PHI_ARG (use_p, phi, iter, SSA_OP_USE)
815 : : {
816 : 1589863 : val = USE_FROM_PTR (use_p);
817 : :
818 : 1589863 : if (TREE_CODE (val) != SSA_NAME)
819 : : {
820 : : /* Assign const 1 to constants. */
821 : 137448 : min_cost = MIN (min_cost, 1);
822 : 137448 : total_cost += 1;
823 : 137448 : continue;
824 : : }
825 : 1452415 : if (!add_dependency (val, lim_data, loop, false))
826 : : return false;
827 : :
828 : 90143 : gimple *def_stmt = SSA_NAME_DEF_STMT (val);
829 : 90143 : if (gimple_bb (def_stmt)
830 : 90143 : && gimple_bb (def_stmt)->loop_father == loop)
831 : : {
832 : 1388 : def_data = get_lim_data (def_stmt);
833 : 1388 : if (def_data)
834 : : {
835 : 1388 : min_cost = MIN (min_cost, def_data->cost);
836 : 1388 : total_cost += def_data->cost;
837 : : }
838 : : }
839 : : }
840 : :
841 : 28559 : min_cost = MIN (min_cost, total_cost);
842 : 28559 : lim_data->cost += min_cost;
843 : :
844 : 28559 : if (gimple_phi_num_args (phi) > 1)
845 : : {
846 : 28354 : basic_block dom = get_immediate_dominator (CDI_DOMINATORS, bb);
847 : 28354 : gimple *cond;
848 : 56708 : if (gsi_end_p (gsi_last_bb (dom)))
849 : : return false;
850 : 17462 : cond = gsi_stmt (gsi_last_bb (dom));
851 : 17462 : if (gimple_code (cond) != GIMPLE_COND)
852 : : return false;
853 : : /* Verify that this is an extended form of a diamond and
854 : : the PHI arguments are completely controlled by the
855 : : predicate in DOM. */
856 : 12414 : if (!extract_true_false_args_from_phi (dom, phi, NULL, NULL))
857 : : return false;
858 : :
859 : : /* Check if one of the depedent statement is a vector compare whether
860 : : the target supports it, otherwise it's invalid to hoist it out of
861 : : the gcond it belonged to. */
862 : 10495 : if (VECTOR_TYPE_P (TREE_TYPE (gimple_cond_lhs (cond))))
863 : : {
864 : 2 : tree type = TREE_TYPE (gimple_cond_lhs (cond));
865 : 2 : auto code = gimple_cond_code (cond);
866 : 2 : if (!target_supports_op_p (type, code, optab_vector))
867 : : return false;
868 : : }
869 : :
870 : : /* Fold in dependencies and cost of the condition. */
871 : 12456 : FOR_EACH_SSA_TREE_OPERAND (val, cond, iter, SSA_OP_USE)
872 : : {
873 : 11445 : if (!add_dependency (val, lim_data, loop, false))
874 : : return false;
875 : 1963 : def_data = get_lim_data (SSA_NAME_DEF_STMT (val));
876 : 1963 : if (def_data)
877 : 899 : lim_data->cost += def_data->cost;
878 : : }
879 : :
880 : : /* We want to avoid unconditionally executing very expensive
881 : : operations. As costs for our dependencies cannot be
882 : : negative just claim we are not invariand for this case.
883 : : We also are not sure whether the control-flow inside the
884 : : loop will vanish. */
885 : 1011 : if (total_cost - min_cost >= 2 * LIM_EXPENSIVE
886 : 125 : && !(min_cost != 0
887 : 125 : && total_cost / min_cost <= 2))
888 : : return false;
889 : :
890 : : /* Assume that the control-flow in the loop will vanish.
891 : : ??? We should verify this and not artificially increase
892 : : the cost if that is not the case. */
893 : 907 : lim_data->cost += stmt_cost (stmt);
894 : : }
895 : :
896 : 1112 : return true;
897 : : }
898 : :
899 : : /* A stmt that receives abnormal edges cannot be hoisted. */
900 : 9603202 : if (is_a <gcall *> (stmt)
901 : 9603202 : && (gimple_call_flags (stmt) & ECF_RETURNS_TWICE))
902 : : return false;
903 : :
904 : 11132804 : FOR_EACH_SSA_TREE_OPERAND (val, stmt, iter, SSA_OP_USE)
905 : 9745780 : if (!add_dependency (val, lim_data, loop, true))
906 : : return false;
907 : :
908 : 2763038 : if (gimple_vuse (stmt))
909 : : {
910 : 712168 : im_mem_ref *ref
911 : 712168 : = lim_data ? memory_accesses.refs_list[lim_data->ref] : NULL;
912 : 712168 : if (ref
913 : 712168 : && MEM_ANALYZABLE (ref))
914 : : {
915 : 711163 : lim_data->max_loop = outermost_indep_loop (lim_data->max_loop,
916 : : loop, ref);
917 : 711163 : if (!lim_data->max_loop)
918 : : return false;
919 : : }
920 : 1005 : else if (! add_dependency (gimple_vuse (stmt), lim_data, loop, false))
921 : : return false;
922 : : }
923 : :
924 : 738808 : lim_data->cost += stmt_cost (stmt);
925 : :
926 : 738808 : return true;
927 : : }
928 : :
929 : : /* Suppose that some statement in ORIG_LOOP is hoisted to the loop LEVEL,
930 : : and that one of the operands of this statement is computed by STMT.
931 : : Ensure that STMT (together with all the statements that define its
932 : : operands) is hoisted at least out of the loop LEVEL. */
933 : :
934 : : static void
935 : 662831 : set_level (gimple *stmt, class loop *orig_loop, class loop *level)
936 : : {
937 : 662831 : class loop *stmt_loop = gimple_bb (stmt)->loop_father;
938 : 662831 : struct lim_aux_data *lim_data;
939 : 662831 : gimple *dep_stmt;
940 : 662831 : unsigned i;
941 : :
942 : 662831 : stmt_loop = find_common_loop (orig_loop, stmt_loop);
943 : 662831 : lim_data = get_lim_data (stmt);
944 : 662831 : if (lim_data != NULL && lim_data->tgt_loop != NULL)
945 : 164432 : stmt_loop = find_common_loop (stmt_loop,
946 : : loop_outer (lim_data->tgt_loop));
947 : 662831 : if (flow_loop_nested_p (stmt_loop, level))
948 : 662831 : return;
949 : :
950 : 438734 : gcc_assert (level == lim_data->max_loop
951 : : || flow_loop_nested_p (lim_data->max_loop, level));
952 : :
953 : 438734 : lim_data->tgt_loop = level;
954 : 755961 : FOR_EACH_VEC_ELT (lim_data->depends, i, dep_stmt)
955 : 317227 : set_level (dep_stmt, orig_loop, level);
956 : : }
957 : :
958 : : /* Determines an outermost loop from that we want to hoist the statement STMT.
959 : : For now we chose the outermost possible loop. TODO -- use profiling
960 : : information to set it more sanely. */
961 : :
962 : : static void
963 : 284160 : set_profitable_level (gimple *stmt)
964 : : {
965 : 284160 : set_level (stmt, gimple_bb (stmt)->loop_father, get_lim_data (stmt)->max_loop);
966 : 284160 : }
967 : :
968 : : /* Returns true if STMT is a call that has side effects. */
969 : :
970 : : static bool
971 : 125003936 : nonpure_call_p (gimple *stmt)
972 : : {
973 : 0 : if (gimple_code (stmt) != GIMPLE_CALL)
974 : : return false;
975 : :
976 : 5376793 : return gimple_has_side_effects (stmt);
977 : : }
978 : :
979 : : /* Rewrite a/b to a*(1/b). Return the invariant stmt to process. */
980 : :
981 : : static gimple *
982 : 35 : rewrite_reciprocal (gimple_stmt_iterator *bsi)
983 : : {
984 : 35 : gassign *stmt, *stmt1, *stmt2;
985 : 35 : tree name, lhs, type;
986 : 35 : tree real_one;
987 : 35 : gimple_stmt_iterator gsi;
988 : :
989 : 35 : stmt = as_a <gassign *> (gsi_stmt (*bsi));
990 : 35 : lhs = gimple_assign_lhs (stmt);
991 : 35 : type = TREE_TYPE (lhs);
992 : :
993 : 35 : real_one = build_one_cst (type);
994 : :
995 : 35 : name = make_temp_ssa_name (type, NULL, "reciptmp");
996 : 70 : stmt1 = gimple_build_assign (name, RDIV_EXPR, real_one,
997 : : gimple_assign_rhs2 (stmt));
998 : 35 : stmt2 = gimple_build_assign (lhs, MULT_EXPR, name,
999 : : gimple_assign_rhs1 (stmt));
1000 : :
1001 : : /* Replace division stmt with reciprocal and multiply stmts.
1002 : : The multiply stmt is not invariant, so update iterator
1003 : : and avoid rescanning. */
1004 : 35 : gsi = *bsi;
1005 : 35 : gsi_insert_before (bsi, stmt1, GSI_NEW_STMT);
1006 : 35 : gsi_replace (&gsi, stmt2, true);
1007 : :
1008 : : /* Continue processing with invariant reciprocal statement. */
1009 : 35 : return stmt1;
1010 : : }
1011 : :
1012 : : /* Check if the pattern at *BSI is a bittest of the form
1013 : : (A >> B) & 1 != 0 and in this case rewrite it to A & (1 << B) != 0. */
1014 : :
1015 : : static gimple *
1016 : 10234 : rewrite_bittest (gimple_stmt_iterator *bsi)
1017 : : {
1018 : 10234 : gassign *stmt;
1019 : 10234 : gimple *stmt1;
1020 : 10234 : gassign *stmt2;
1021 : 10234 : gimple *use_stmt;
1022 : 10234 : gcond *cond_stmt;
1023 : 10234 : tree lhs, name, t, a, b;
1024 : 10234 : use_operand_p use;
1025 : :
1026 : 10234 : stmt = as_a <gassign *> (gsi_stmt (*bsi));
1027 : 10234 : lhs = gimple_assign_lhs (stmt);
1028 : :
1029 : : /* Verify that the single use of lhs is a comparison against zero. */
1030 : 10234 : if (TREE_CODE (lhs) != SSA_NAME
1031 : 10234 : || !single_imm_use (lhs, &use, &use_stmt))
1032 : 280 : return stmt;
1033 : 15074 : cond_stmt = dyn_cast <gcond *> (use_stmt);
1034 : 4900 : if (!cond_stmt)
1035 : : return stmt;
1036 : 4900 : if (gimple_cond_lhs (cond_stmt) != lhs
1037 : 4746 : || (gimple_cond_code (cond_stmt) != NE_EXPR
1038 : 1913 : && gimple_cond_code (cond_stmt) != EQ_EXPR)
1039 : 9646 : || !integer_zerop (gimple_cond_rhs (cond_stmt)))
1040 : 182 : return stmt;
1041 : :
1042 : : /* Get at the operands of the shift. The rhs is TMP1 & 1. */
1043 : 4718 : stmt1 = SSA_NAME_DEF_STMT (gimple_assign_rhs1 (stmt));
1044 : 4718 : if (gimple_code (stmt1) != GIMPLE_ASSIGN)
1045 : : return stmt;
1046 : :
1047 : : /* There is a conversion in between possibly inserted by fold. */
1048 : 4647 : if (CONVERT_EXPR_CODE_P (gimple_assign_rhs_code (stmt1)))
1049 : : {
1050 : 249 : t = gimple_assign_rhs1 (stmt1);
1051 : 249 : if (TREE_CODE (t) != SSA_NAME
1052 : 249 : || !has_single_use (t))
1053 : : return stmt;
1054 : 173 : stmt1 = SSA_NAME_DEF_STMT (t);
1055 : 173 : if (gimple_code (stmt1) != GIMPLE_ASSIGN)
1056 : : return stmt;
1057 : : }
1058 : :
1059 : : /* Verify that B is loop invariant but A is not. Verify that with
1060 : : all the stmt walking we are still in the same loop. */
1061 : 4529 : if (gimple_assign_rhs_code (stmt1) != RSHIFT_EXPR
1062 : 10243 : || loop_containing_stmt (stmt1) != loop_containing_stmt (stmt))
1063 : : return stmt;
1064 : :
1065 : 2857 : a = gimple_assign_rhs1 (stmt1);
1066 : 2857 : b = gimple_assign_rhs2 (stmt1);
1067 : :
1068 : 2857 : if (outermost_invariant_loop (b, loop_containing_stmt (stmt1)) != NULL
1069 : 2917 : && outermost_invariant_loop (a, loop_containing_stmt (stmt1)) == NULL)
1070 : : {
1071 : 60 : gimple_stmt_iterator rsi;
1072 : :
1073 : : /* 1 << B */
1074 : 60 : t = fold_build2 (LSHIFT_EXPR, TREE_TYPE (a),
1075 : : build_int_cst (TREE_TYPE (a), 1), b);
1076 : 60 : name = make_temp_ssa_name (TREE_TYPE (a), NULL, "shifttmp");
1077 : 60 : stmt1 = gimple_build_assign (name, t);
1078 : :
1079 : : /* A & (1 << B) */
1080 : 60 : t = fold_build2 (BIT_AND_EXPR, TREE_TYPE (a), a, name);
1081 : 60 : name = make_temp_ssa_name (TREE_TYPE (a), NULL, "shifttmp");
1082 : 60 : stmt2 = gimple_build_assign (name, t);
1083 : :
1084 : : /* Replace the SSA_NAME we compare against zero. Adjust
1085 : : the type of zero accordingly. */
1086 : 60 : SET_USE (use, name);
1087 : 60 : gimple_cond_set_rhs (cond_stmt,
1088 : 60 : build_int_cst_type (TREE_TYPE (name),
1089 : : 0));
1090 : :
1091 : : /* Don't use gsi_replace here, none of the new assignments sets
1092 : : the variable originally set in stmt. Move bsi to stmt1, and
1093 : : then remove the original stmt, so that we get a chance to
1094 : : retain debug info for it. */
1095 : 60 : rsi = *bsi;
1096 : 60 : gsi_insert_before (bsi, stmt1, GSI_NEW_STMT);
1097 : 60 : gsi_insert_before (&rsi, stmt2, GSI_SAME_STMT);
1098 : 60 : gimple *to_release = gsi_stmt (rsi);
1099 : 60 : gsi_remove (&rsi, true);
1100 : 60 : release_defs (to_release);
1101 : :
1102 : 60 : return stmt1;
1103 : : }
1104 : :
1105 : : return stmt;
1106 : : }
1107 : :
1108 : : /* Determine the outermost loops in that statements in basic block BB are
1109 : : invariant, and record them to the LIM_DATA associated with the
1110 : : statements. */
1111 : :
1112 : : static void
1113 : 14716282 : compute_invariantness (basic_block bb)
1114 : : {
1115 : 14716282 : enum move_pos pos;
1116 : 14716282 : gimple_stmt_iterator bsi;
1117 : 14716282 : gimple *stmt;
1118 : 14716282 : bool maybe_never = ALWAYS_EXECUTED_IN (bb) == NULL;
1119 : 14716282 : class loop *outermost = ALWAYS_EXECUTED_IN (bb);
1120 : 14716282 : struct lim_aux_data *lim_data;
1121 : :
1122 : 14716282 : if (!loop_outer (bb->loop_father))
1123 : 8551500 : return;
1124 : :
1125 : 6164782 : if (dump_file && (dump_flags & TDF_DETAILS))
1126 : 350 : fprintf (dump_file, "Basic block %d (loop %d -- depth %d):\n\n",
1127 : 350 : bb->index, bb->loop_father->num, loop_depth (bb->loop_father));
1128 : :
1129 : : /* Look at PHI nodes, but only if there is at most two.
1130 : : ??? We could relax this further by post-processing the inserted
1131 : : code and transforming adjacent cond-exprs with the same predicate
1132 : : to control flow again. */
1133 : 6164782 : bsi = gsi_start_phis (bb);
1134 : 6164782 : if (!gsi_end_p (bsi)
1135 : 6164782 : && ((gsi_next (&bsi), gsi_end_p (bsi))
1136 : 1375785 : || (gsi_next (&bsi), gsi_end_p (bsi))))
1137 : 4397292 : for (bsi = gsi_start_phis (bb); !gsi_end_p (bsi); gsi_next (&bsi))
1138 : : {
1139 : 2636678 : stmt = gsi_stmt (bsi);
1140 : :
1141 : 2636678 : pos = movement_possibility (stmt);
1142 : 2636678 : if (pos == MOVE_IMPOSSIBLE)
1143 : 1176544 : continue;
1144 : :
1145 : 1460134 : lim_data = get_lim_data (stmt);
1146 : 1460134 : if (! lim_data)
1147 : 1460134 : lim_data = init_lim_data (stmt);
1148 : 1460134 : lim_data->always_executed_in = outermost;
1149 : :
1150 : 1460134 : if (!determine_max_movement (stmt, false))
1151 : : {
1152 : 1459022 : lim_data->max_loop = NULL;
1153 : 1459022 : continue;
1154 : : }
1155 : :
1156 : 1112 : if (dump_file && (dump_flags & TDF_DETAILS))
1157 : : {
1158 : 2 : print_gimple_stmt (dump_file, stmt, 2);
1159 : 2 : fprintf (dump_file, " invariant up to level %d, cost %d.\n\n",
1160 : 2 : loop_depth (lim_data->max_loop),
1161 : : lim_data->cost);
1162 : : }
1163 : :
1164 : 1112 : if (lim_data->cost >= LIM_EXPENSIVE)
1165 : 913 : set_profitable_level (stmt);
1166 : : }
1167 : :
1168 : 56495226 : for (bsi = gsi_start_bb (bb); !gsi_end_p (bsi); gsi_next (&bsi))
1169 : : {
1170 : 44165662 : stmt = gsi_stmt (bsi);
1171 : :
1172 : 44165662 : pos = movement_possibility (stmt);
1173 : 44165662 : if (pos == MOVE_IMPOSSIBLE)
1174 : : {
1175 : 33394196 : if (nonpure_call_p (stmt))
1176 : : {
1177 : : maybe_never = true;
1178 : : outermost = NULL;
1179 : : }
1180 : : /* Make sure to note always_executed_in for stores to make
1181 : : store-motion work. */
1182 : 30971500 : else if (stmt_makes_single_store (stmt))
1183 : : {
1184 : 2686844 : struct lim_aux_data *lim_data = get_lim_data (stmt);
1185 : 2686844 : if (! lim_data)
1186 : 0 : lim_data = init_lim_data (stmt);
1187 : 2686844 : lim_data->always_executed_in = outermost;
1188 : : }
1189 : 32179488 : continue;
1190 : 32179488 : }
1191 : :
1192 : 11986174 : if (is_gimple_assign (stmt)
1193 : 11986174 : && (get_gimple_rhs_class (gimple_assign_rhs_code (stmt))
1194 : : == GIMPLE_BINARY_RHS))
1195 : : {
1196 : 5811104 : tree op0 = gimple_assign_rhs1 (stmt);
1197 : 5811104 : tree op1 = gimple_assign_rhs2 (stmt);
1198 : 11622208 : class loop *ol1 = outermost_invariant_loop (op1,
1199 : : loop_containing_stmt (stmt));
1200 : :
1201 : : /* If divisor is invariant, convert a/b to a*(1/b), allowing reciprocal
1202 : : to be hoisted out of loop, saving expensive divide. */
1203 : 5811104 : if (pos == MOVE_POSSIBLE
1204 : 5224107 : && gimple_assign_rhs_code (stmt) == RDIV_EXPR
1205 : 549 : && flag_unsafe_math_optimizations
1206 : 367 : && !flag_trapping_math
1207 : 367 : && ol1 != NULL
1208 : 5811142 : && outermost_invariant_loop (op0, ol1) == NULL)
1209 : 35 : stmt = rewrite_reciprocal (&bsi);
1210 : :
1211 : : /* If the shift count is invariant, convert (A >> B) & 1 to
1212 : : A & (1 << B) allowing the bit mask to be hoisted out of the loop
1213 : : saving an expensive shift. */
1214 : 5811104 : if (pos == MOVE_POSSIBLE
1215 : 5224107 : && gimple_assign_rhs_code (stmt) == BIT_AND_EXPR
1216 : 218267 : && integer_onep (op1)
1217 : 18492 : && TREE_CODE (op0) == SSA_NAME
1218 : 5829596 : && has_single_use (op0))
1219 : 10234 : stmt = rewrite_bittest (&bsi);
1220 : : }
1221 : :
1222 : 11986174 : lim_data = get_lim_data (stmt);
1223 : 11986174 : if (! lim_data)
1224 : 9124165 : lim_data = init_lim_data (stmt);
1225 : 11986174 : lim_data->always_executed_in = outermost;
1226 : :
1227 : 11986174 : if (maybe_never && pos == MOVE_PRESERVE_EXECUTION)
1228 : 1298364 : continue;
1229 : :
1230 : 10687810 : if (!determine_max_movement (stmt, pos == MOVE_PRESERVE_EXECUTION))
1231 : : {
1232 : 9949002 : lim_data->max_loop = NULL;
1233 : 9949002 : continue;
1234 : : }
1235 : :
1236 : 738808 : if (dump_file && (dump_flags & TDF_DETAILS))
1237 : : {
1238 : 266 : print_gimple_stmt (dump_file, stmt, 2);
1239 : 266 : fprintf (dump_file, " invariant up to level %d, cost %d.\n\n",
1240 : 266 : loop_depth (lim_data->max_loop),
1241 : : lim_data->cost);
1242 : : }
1243 : :
1244 : 738808 : if (lim_data->cost >= LIM_EXPENSIVE)
1245 : 283247 : set_profitable_level (stmt);
1246 : : /* When we run before PRE and PRE is active hoist all expressions
1247 : : to the always executed loop since PRE would do so anyway
1248 : : and we can preserve range info while PRE cannot. */
1249 : 455561 : else if (flag_tree_pre && !in_loop_pipeline
1250 : 99700 : && outermost)
1251 : : {
1252 : 58610 : class loop *mloop = lim_data->max_loop;
1253 : 175830 : if (loop_depth (outermost) > loop_depth (mloop))
1254 : : {
1255 : 8410 : mloop = outermost;
1256 : 8410 : if (dump_file && (dump_flags & TDF_DETAILS))
1257 : 1 : fprintf (dump_file, " constraining to loop depth %d\n\n\n",
1258 : : loop_depth (mloop));
1259 : : }
1260 : 58610 : set_level (stmt, bb->loop_father, mloop);
1261 : : }
1262 : : }
1263 : : }
1264 : :
1265 : : /* Hoist the statements in basic block BB out of the loops prescribed by
1266 : : data stored in LIM_DATA structures associated with each statement. Callback
1267 : : for walk_dominator_tree. */
1268 : :
1269 : : unsigned int
1270 : 14762298 : move_computations_worker (basic_block bb)
1271 : : {
1272 : 14762298 : class loop *level;
1273 : 14762298 : unsigned cost = 0;
1274 : 14762298 : struct lim_aux_data *lim_data;
1275 : 14762298 : unsigned int todo = 0;
1276 : :
1277 : 14762298 : if (!loop_outer (bb->loop_father))
1278 : : return todo;
1279 : :
1280 : 10806146 : for (gphi_iterator bsi = gsi_start_phis (bb); !gsi_end_p (bsi); )
1281 : : {
1282 : 4635237 : gassign *new_stmt;
1283 : 4635237 : gphi *stmt = bsi.phi ();
1284 : :
1285 : 4635237 : lim_data = get_lim_data (stmt);
1286 : 4635237 : if (lim_data == NULL)
1287 : : {
1288 : 3175103 : gsi_next (&bsi);
1289 : 3175103 : continue;
1290 : : }
1291 : :
1292 : 1460134 : cost = lim_data->cost;
1293 : 1460134 : level = lim_data->tgt_loop;
1294 : 1460134 : clear_lim_data (stmt);
1295 : :
1296 : 1460134 : if (!level)
1297 : : {
1298 : 1459217 : gsi_next (&bsi);
1299 : 1459217 : continue;
1300 : : }
1301 : :
1302 : 917 : if (dump_file && (dump_flags & TDF_DETAILS))
1303 : : {
1304 : 2 : fprintf (dump_file, "Moving PHI node\n");
1305 : 2 : print_gimple_stmt (dump_file, stmt, 0);
1306 : 2 : fprintf (dump_file, "(cost %u) out of loop %d.\n\n",
1307 : : cost, level->num);
1308 : : }
1309 : :
1310 : 917 : if (gimple_phi_num_args (stmt) == 1)
1311 : : {
1312 : 10 : tree arg = PHI_ARG_DEF (stmt, 0);
1313 : 10 : new_stmt = gimple_build_assign (gimple_phi_result (stmt),
1314 : 10 : TREE_CODE (arg), arg);
1315 : : }
1316 : : else
1317 : : {
1318 : 907 : basic_block dom = get_immediate_dominator (CDI_DOMINATORS, bb);
1319 : 907 : gimple *cond = gsi_stmt (gsi_last_bb (dom));
1320 : 907 : tree arg0 = NULL_TREE, arg1 = NULL_TREE, t;
1321 : : /* Get the PHI arguments corresponding to the true and false
1322 : : edges of COND. */
1323 : 907 : extract_true_false_args_from_phi (dom, stmt, &arg0, &arg1);
1324 : 907 : gcc_assert (arg0 && arg1);
1325 : : /* For `bool_val != 0`, reuse bool_val. */
1326 : 907 : if (gimple_cond_code (cond) == NE_EXPR
1327 : 517 : && integer_zerop (gimple_cond_rhs (cond))
1328 : 1358 : && types_compatible_p (TREE_TYPE (gimple_cond_lhs (cond)),
1329 : : boolean_type_node))
1330 : : {
1331 : 55 : t = gimple_cond_lhs (cond);
1332 : : }
1333 : : else
1334 : : {
1335 : 852 : t = make_ssa_name (boolean_type_node);
1336 : 852 : new_stmt = gimple_build_assign (t, gimple_cond_code (cond),
1337 : : gimple_cond_lhs (cond),
1338 : : gimple_cond_rhs (cond));
1339 : 852 : gsi_insert_on_edge (loop_preheader_edge (level), new_stmt);
1340 : : }
1341 : 907 : new_stmt = gimple_build_assign (gimple_phi_result (stmt),
1342 : : COND_EXPR, t, arg0, arg1);
1343 : 907 : todo |= TODO_cleanup_cfg;
1344 : : }
1345 : 917 : if (!ALWAYS_EXECUTED_IN (bb)
1346 : 917 : || (ALWAYS_EXECUTED_IN (bb) != level
1347 : 96 : && !flow_loop_nested_p (ALWAYS_EXECUTED_IN (bb), level)))
1348 : 460 : reset_flow_sensitive_info (gimple_assign_lhs (new_stmt));
1349 : 917 : gsi_insert_on_edge (loop_preheader_edge (level), new_stmt);
1350 : 917 : remove_phi_node (&bsi, false);
1351 : : }
1352 : :
1353 : 56572240 : for (gimple_stmt_iterator bsi = gsi_start_bb (bb); !gsi_end_p (bsi); )
1354 : : {
1355 : 44230422 : edge e;
1356 : :
1357 : 44230422 : gimple *stmt = gsi_stmt (bsi);
1358 : :
1359 : 44230422 : lim_data = get_lim_data (stmt);
1360 : 44230422 : if (lim_data == NULL)
1361 : : {
1362 : 27882839 : gsi_next (&bsi);
1363 : 27882839 : continue;
1364 : : }
1365 : :
1366 : 16347583 : cost = lim_data->cost;
1367 : 16347583 : level = lim_data->tgt_loop;
1368 : 16347583 : clear_lim_data (stmt);
1369 : :
1370 : 16347583 : if (!level)
1371 : : {
1372 : 15870783 : gsi_next (&bsi);
1373 : 15870783 : continue;
1374 : : }
1375 : :
1376 : : /* We do not really want to move conditionals out of the loop; we just
1377 : : placed it here to force its operands to be moved if necessary. */
1378 : 476800 : if (gimple_code (stmt) == GIMPLE_COND)
1379 : : {
1380 : 11010 : gsi_next (&bsi);
1381 : 11010 : continue;
1382 : : }
1383 : :
1384 : 465790 : if (dump_file && (dump_flags & TDF_DETAILS))
1385 : : {
1386 : 336 : fprintf (dump_file, "Moving statement\n");
1387 : 336 : print_gimple_stmt (dump_file, stmt, 0);
1388 : 336 : fprintf (dump_file, "(cost %u) out of loop %d.\n\n",
1389 : : cost, level->num);
1390 : : }
1391 : :
1392 : 465790 : e = loop_preheader_edge (level);
1393 : 931580 : gcc_assert (!gimple_vdef (stmt));
1394 : 931580 : if (gimple_vuse (stmt))
1395 : : {
1396 : : /* The new VUSE is the one from the virtual PHI in the loop
1397 : : header or the one already present. */
1398 : 81578 : gphi_iterator gsi2;
1399 : 81578 : for (gsi2 = gsi_start_phis (e->dest);
1400 : 191422 : !gsi_end_p (gsi2); gsi_next (&gsi2))
1401 : : {
1402 : 174548 : gphi *phi = gsi2.phi ();
1403 : 349096 : if (virtual_operand_p (gimple_phi_result (phi)))
1404 : : {
1405 : 64704 : SET_USE (gimple_vuse_op (stmt),
1406 : : PHI_ARG_DEF_FROM_EDGE (phi, e));
1407 : 64704 : break;
1408 : : }
1409 : : }
1410 : : }
1411 : 465790 : gsi_remove (&bsi, false);
1412 : 465790 : if (gimple_has_lhs (stmt)
1413 : 465790 : && TREE_CODE (gimple_get_lhs (stmt)) == SSA_NAME
1414 : 424379 : && (!ALWAYS_EXECUTED_IN (bb)
1415 : 359466 : || !(ALWAYS_EXECUTED_IN (bb) == level
1416 : 96926 : || flow_loop_nested_p (ALWAYS_EXECUTED_IN (bb), level))))
1417 : 201496 : reset_flow_sensitive_info (gimple_get_lhs (stmt));
1418 : : /* In case this is a stmt that is not unconditionally executed
1419 : : when the target loop header is executed and the stmt may
1420 : : invoke undefined integer or pointer overflow rewrite it to
1421 : : unsigned arithmetic. */
1422 : 465790 : if (gimple_needing_rewrite_undefined (stmt)
1423 : 465790 : && (!ALWAYS_EXECUTED_IN (bb)
1424 : 79114 : || !(ALWAYS_EXECUTED_IN (bb) == level
1425 : 18608 : || flow_loop_nested_p (ALWAYS_EXECUTED_IN (bb), level))))
1426 : 21965 : gsi_insert_seq_on_edge (e, rewrite_to_defined_unconditional (stmt));
1427 : : else
1428 : 443825 : gsi_insert_on_edge (e, stmt);
1429 : : }
1430 : :
1431 : 6170909 : return todo;
1432 : : }
1433 : :
1434 : : /* Checks whether the statement defining variable *INDEX can be hoisted
1435 : : out of the loop passed in DATA. Callback for for_each_index. */
1436 : :
1437 : : static bool
1438 : 1597966 : may_move_till (tree ref, tree *index, void *data)
1439 : : {
1440 : 1597966 : class loop *loop = (class loop *) data, *max_loop;
1441 : :
1442 : : /* If REF is an array reference, check also that the step and the lower
1443 : : bound is invariant in LOOP. */
1444 : 1597966 : if (TREE_CODE (ref) == ARRAY_REF)
1445 : : {
1446 : 435076 : tree step = TREE_OPERAND (ref, 3);
1447 : 435076 : tree lbound = TREE_OPERAND (ref, 2);
1448 : :
1449 : 435076 : max_loop = outermost_invariant_loop (step, loop);
1450 : 435076 : if (!max_loop)
1451 : : return false;
1452 : :
1453 : 435076 : max_loop = outermost_invariant_loop (lbound, loop);
1454 : 435076 : if (!max_loop)
1455 : : return false;
1456 : : }
1457 : :
1458 : 1597966 : max_loop = outermost_invariant_loop (*index, loop);
1459 : 1597966 : if (!max_loop)
1460 : : return false;
1461 : :
1462 : : return true;
1463 : : }
1464 : :
1465 : : /* If OP is SSA NAME, force the statement that defines it to be
1466 : : moved out of the LOOP. ORIG_LOOP is the loop in that EXPR is used. */
1467 : :
1468 : : static void
1469 : 37510 : force_move_till_op (tree op, class loop *orig_loop, class loop *loop)
1470 : : {
1471 : 37510 : gimple *stmt;
1472 : :
1473 : 37510 : if (!op
1474 : 37510 : || is_gimple_min_invariant (op))
1475 : 33034 : return;
1476 : :
1477 : 4476 : gcc_assert (TREE_CODE (op) == SSA_NAME);
1478 : :
1479 : 4476 : stmt = SSA_NAME_DEF_STMT (op);
1480 : 4476 : if (gimple_nop_p (stmt))
1481 : : return;
1482 : :
1483 : 2834 : set_level (stmt, orig_loop, loop);
1484 : : }
1485 : :
1486 : : /* Forces statement defining invariants in REF (and *INDEX) to be moved out of
1487 : : the LOOP. The reference REF is used in the loop ORIG_LOOP. Callback for
1488 : : for_each_index. */
1489 : :
1490 : : struct fmt_data
1491 : : {
1492 : : class loop *loop;
1493 : : class loop *orig_loop;
1494 : : };
1495 : :
1496 : : static bool
1497 : 19774 : force_move_till (tree ref, tree *index, void *data)
1498 : : {
1499 : 19774 : struct fmt_data *fmt_data = (struct fmt_data *) data;
1500 : :
1501 : 19774 : if (TREE_CODE (ref) == ARRAY_REF)
1502 : : {
1503 : 8868 : tree step = TREE_OPERAND (ref, 3);
1504 : 8868 : tree lbound = TREE_OPERAND (ref, 2);
1505 : :
1506 : 8868 : force_move_till_op (step, fmt_data->orig_loop, fmt_data->loop);
1507 : 8868 : force_move_till_op (lbound, fmt_data->orig_loop, fmt_data->loop);
1508 : : }
1509 : :
1510 : 19774 : force_move_till_op (*index, fmt_data->orig_loop, fmt_data->loop);
1511 : :
1512 : 19774 : return true;
1513 : : }
1514 : :
1515 : : /* A function to free the mem_ref object OBJ. */
1516 : :
1517 : : static void
1518 : 5389210 : memref_free (class im_mem_ref *mem)
1519 : : {
1520 : 0 : mem->accesses_in_loop.release ();
1521 : 0 : }
1522 : :
1523 : : /* Allocates and returns a memory reference description for MEM whose hash
1524 : : value is HASH and id is ID. */
1525 : :
1526 : : static im_mem_ref *
1527 : 5389210 : mem_ref_alloc (ao_ref *mem, unsigned hash, unsigned id)
1528 : : {
1529 : 5389210 : im_mem_ref *ref = XOBNEW (&mem_ref_obstack, class im_mem_ref);
1530 : 5389210 : if (mem)
1531 : 4267825 : ref->mem = *mem;
1532 : : else
1533 : 1121385 : ao_ref_init (&ref->mem, error_mark_node);
1534 : 5389210 : ref->id = id;
1535 : 5389210 : ref->ref_canonical = false;
1536 : 5389210 : ref->ref_decomposed = false;
1537 : 5389210 : ref->hash = hash;
1538 : 5389210 : ref->stored = NULL;
1539 : 5389210 : ref->loaded = NULL;
1540 : 5389210 : bitmap_initialize (&ref->dep_loop, &lim_bitmap_obstack);
1541 : 5389210 : ref->accesses_in_loop.create (1);
1542 : :
1543 : 5389210 : return ref;
1544 : : }
1545 : :
1546 : : /* Records memory reference location *LOC in LOOP to the memory reference
1547 : : description REF. The reference occurs in statement STMT. */
1548 : :
1549 : : static void
1550 : 5890395 : record_mem_ref_loc (im_mem_ref *ref, gimple *stmt, tree *loc)
1551 : : {
1552 : 5890395 : mem_ref_loc aref;
1553 : 5890395 : aref.stmt = stmt;
1554 : 5890395 : aref.ref = loc;
1555 : 0 : ref->accesses_in_loop.safe_push (aref);
1556 : 0 : }
1557 : :
1558 : : /* Set the LOOP bit in REF stored bitmap and allocate that if
1559 : : necessary. Return whether a bit was changed. */
1560 : :
1561 : : static bool
1562 : 4647413 : set_ref_stored_in_loop (im_mem_ref *ref, class loop *loop)
1563 : : {
1564 : 4647413 : if (!ref->stored)
1565 : 2688169 : ref->stored = BITMAP_ALLOC (&lim_bitmap_obstack);
1566 : 4647413 : return bitmap_set_bit (ref->stored, loop->num);
1567 : : }
1568 : :
1569 : : /* Marks reference REF as stored in LOOP. */
1570 : :
1571 : : static void
1572 : 3899876 : mark_ref_stored (im_mem_ref *ref, class loop *loop)
1573 : : {
1574 : 3899876 : while (loop != current_loops->tree_root
1575 : 7499850 : && set_ref_stored_in_loop (ref, loop))
1576 : 3599974 : loop = loop_outer (loop);
1577 : 3899876 : }
1578 : :
1579 : : /* Set the LOOP bit in REF loaded bitmap and allocate that if
1580 : : necessary. Return whether a bit was changed. */
1581 : :
1582 : : static bool
1583 : 6393735 : set_ref_loaded_in_loop (im_mem_ref *ref, class loop *loop)
1584 : : {
1585 : 6393735 : if (!ref->loaded)
1586 : 3551437 : ref->loaded = BITMAP_ALLOC (&lim_bitmap_obstack);
1587 : 6393735 : return bitmap_set_bit (ref->loaded, loop->num);
1588 : : }
1589 : :
1590 : : /* Marks reference REF as loaded in LOOP. */
1591 : :
1592 : : static void
1593 : 5129862 : mark_ref_loaded (im_mem_ref *ref, class loop *loop)
1594 : : {
1595 : 5129862 : while (loop != current_loops->tree_root
1596 : 10163190 : && set_ref_loaded_in_loop (ref, loop))
1597 : 5033328 : loop = loop_outer (loop);
1598 : 5129862 : }
1599 : :
1600 : : /* Gathers memory references in statement STMT in LOOP, storing the
1601 : : information about them in the memory_accesses structure. Marks
1602 : : the vops accessed through unrecognized statements there as
1603 : : well. */
1604 : :
1605 : : static void
1606 : 44165567 : gather_mem_refs_stmt (class loop *loop, gimple *stmt)
1607 : : {
1608 : 44165567 : tree *mem = NULL;
1609 : 44165567 : hashval_t hash;
1610 : 44165567 : im_mem_ref **slot;
1611 : 44165567 : im_mem_ref *ref;
1612 : 44165567 : bool is_stored;
1613 : 44165567 : unsigned id;
1614 : :
1615 : 60172968 : if (!gimple_vuse (stmt))
1616 : : return;
1617 : :
1618 : 7181494 : mem = simple_mem_ref_in_stmt (stmt, &is_stored);
1619 : 7181494 : if (!mem && is_gimple_assign (stmt))
1620 : : {
1621 : : /* For aggregate copies record distinct references but use them
1622 : : only for disambiguation purposes. */
1623 : 643974 : id = memory_accesses.refs_list.length ();
1624 : 643974 : ref = mem_ref_alloc (NULL, 0, id);
1625 : 643974 : memory_accesses.refs_list.safe_push (ref);
1626 : 643974 : if (dump_file && (dump_flags & TDF_DETAILS))
1627 : : {
1628 : 24 : fprintf (dump_file, "Unhandled memory reference %u: ", id);
1629 : 24 : print_gimple_stmt (dump_file, stmt, 0, TDF_SLIM);
1630 : : }
1631 : 643974 : record_mem_ref_loc (ref, stmt, mem);
1632 : 1287948 : is_stored = gimple_vdef (stmt);
1633 : : }
1634 : 6537520 : else if (!mem)
1635 : : {
1636 : : /* We use the shared mem_ref for all unanalyzable refs. */
1637 : 1291099 : id = UNANALYZABLE_MEM_ID;
1638 : 1291099 : ref = memory_accesses.refs_list[id];
1639 : 1291099 : if (dump_file && (dump_flags & TDF_DETAILS))
1640 : : {
1641 : 9 : fprintf (dump_file, "Unanalyzed memory reference %u: ", id);
1642 : 9 : print_gimple_stmt (dump_file, stmt, 0, TDF_SLIM);
1643 : : }
1644 : 2582198 : is_stored = gimple_vdef (stmt);
1645 : : }
1646 : : else
1647 : : {
1648 : : /* We are looking for equal refs that might differ in structure
1649 : : such as a.b vs. MEM[&a + 4]. So we key off the ao_ref but
1650 : : make sure we can canonicalize the ref in the hashtable if
1651 : : non-operand_equal_p refs are found. For the lookup we mark
1652 : : the case we want strict equality with aor.max_size == -1. */
1653 : 5246421 : ao_ref aor;
1654 : 5246421 : ao_ref_init (&aor, *mem);
1655 : 5246421 : ao_ref_base (&aor);
1656 : 5246421 : ao_ref_alias_set (&aor);
1657 : 5246421 : HOST_WIDE_INT offset, size, max_size;
1658 : 5246421 : poly_int64 saved_maxsize = aor.max_size, mem_off;
1659 : 5246421 : tree mem_base;
1660 : 5246421 : bool ref_decomposed;
1661 : 5246421 : if (aor.max_size_known_p ()
1662 : 5072596 : && aor.offset.is_constant (&offset)
1663 : 5072596 : && aor.size.is_constant (&size)
1664 : 5072596 : && aor.max_size.is_constant (&max_size)
1665 : 5072596 : && size == max_size
1666 : 4471502 : && (size % BITS_PER_UNIT) == 0
1667 : : /* We're canonicalizing to a MEM where TYPE_SIZE specifies the
1668 : : size. Make sure this is consistent with the extraction. */
1669 : 4459479 : && poly_int_tree_p (TYPE_SIZE (TREE_TYPE (*mem)))
1670 : 4459479 : && known_eq (wi::to_poly_offset (TYPE_SIZE (TREE_TYPE (*mem))),
1671 : : aor.size)
1672 : 9705808 : && (mem_base = get_addr_base_and_unit_offset (aor.ref, &mem_off)))
1673 : : {
1674 : 4458341 : ref_decomposed = true;
1675 : 4458341 : tree base = ao_ref_base (&aor);
1676 : 4458341 : poly_int64 moffset;
1677 : 4458341 : HOST_WIDE_INT mcoffset;
1678 : 4458341 : if (TREE_CODE (base) == MEM_REF
1679 : 1970659 : && (mem_ref_offset (base) * BITS_PER_UNIT + offset).to_shwi (&moffset)
1680 : 4458341 : && moffset.is_constant (&mcoffset))
1681 : : {
1682 : 1970659 : hash = iterative_hash_expr (TREE_OPERAND (base, 0), 0);
1683 : 1970659 : hash = iterative_hash_host_wide_int (mcoffset, hash);
1684 : : }
1685 : : else
1686 : : {
1687 : 2487682 : hash = iterative_hash_expr (base, 0);
1688 : 2487682 : hash = iterative_hash_host_wide_int (offset, hash);
1689 : : }
1690 : 4458341 : hash = iterative_hash_host_wide_int (size, hash);
1691 : : }
1692 : : else
1693 : : {
1694 : 788080 : ref_decomposed = false;
1695 : 788080 : hash = iterative_hash_expr (aor.ref, 0);
1696 : 788080 : aor.max_size = -1;
1697 : : }
1698 : 5246421 : slot = memory_accesses.refs->find_slot_with_hash (&aor, hash, INSERT);
1699 : 5246421 : aor.max_size = saved_maxsize;
1700 : 5246421 : if (*slot)
1701 : : {
1702 : 978596 : if (!(*slot)->ref_canonical
1703 : 978596 : && !operand_equal_p (*mem, (*slot)->mem.ref, 0))
1704 : : {
1705 : : /* If we didn't yet canonicalize the hashtable ref (which
1706 : : we'll end up using for code insertion) and hit a second
1707 : : equal ref that is not structurally equivalent create
1708 : : a canonical ref which is a bare MEM_REF. */
1709 : 71475 : if (TREE_CODE (*mem) == MEM_REF
1710 : 71475 : || TREE_CODE (*mem) == TARGET_MEM_REF)
1711 : : {
1712 : 22911 : (*slot)->mem.ref = *mem;
1713 : 22911 : (*slot)->mem.base_alias_set = ao_ref_base_alias_set (&aor);
1714 : : }
1715 : : else
1716 : : {
1717 : 48564 : tree ref_alias_type = reference_alias_ptr_type (*mem);
1718 : 48564 : unsigned int ref_align = get_object_alignment (*mem);
1719 : 48564 : tree ref_type = TREE_TYPE (*mem);
1720 : 48564 : tree tmp = build1 (ADDR_EXPR, ptr_type_node,
1721 : : unshare_expr (mem_base));
1722 : 48564 : if (TYPE_ALIGN (ref_type) != ref_align)
1723 : 17395 : ref_type = build_aligned_type (ref_type, ref_align);
1724 : 48564 : tree new_ref
1725 : 48564 : = fold_build2 (MEM_REF, ref_type, tmp,
1726 : : build_int_cst (ref_alias_type, mem_off));
1727 : 48564 : if ((*slot)->mem.volatile_p)
1728 : 14 : TREE_THIS_VOLATILE (new_ref) = 1;
1729 : 48564 : (*slot)->mem.ref = new_ref;
1730 : : /* Make sure the recorded base and offset are consistent
1731 : : with the newly built ref. */
1732 : 48564 : if (TREE_CODE (TREE_OPERAND (new_ref, 0)) == ADDR_EXPR)
1733 : : ;
1734 : : else
1735 : : {
1736 : 22900 : (*slot)->mem.base = new_ref;
1737 : 22900 : (*slot)->mem.offset = 0;
1738 : : }
1739 : 48564 : gcc_checking_assert (TREE_CODE ((*slot)->mem.ref) == MEM_REF
1740 : : && is_gimple_mem_ref_addr
1741 : : (TREE_OPERAND ((*slot)->mem.ref,
1742 : : 0)));
1743 : 48564 : (*slot)->mem.base_alias_set = (*slot)->mem.ref_alias_set;
1744 : : }
1745 : 71475 : (*slot)->ref_canonical = true;
1746 : : }
1747 : 978596 : ref = *slot;
1748 : 978596 : id = ref->id;
1749 : : }
1750 : : else
1751 : : {
1752 : 4267825 : id = memory_accesses.refs_list.length ();
1753 : 4267825 : ref = mem_ref_alloc (&aor, hash, id);
1754 : 4267825 : ref->ref_decomposed = ref_decomposed;
1755 : 4267825 : memory_accesses.refs_list.safe_push (ref);
1756 : 4267825 : *slot = ref;
1757 : :
1758 : 4267825 : if (dump_file && (dump_flags & TDF_DETAILS))
1759 : : {
1760 : 390 : fprintf (dump_file, "Memory reference %u: ", id);
1761 : 390 : print_generic_expr (dump_file, ref->mem.ref, TDF_SLIM);
1762 : 390 : fprintf (dump_file, "\n");
1763 : : }
1764 : : }
1765 : :
1766 : 5246421 : record_mem_ref_loc (ref, stmt, mem);
1767 : : }
1768 : 7181494 : if (is_stored)
1769 : : {
1770 : 3899876 : bitmap_set_bit (&memory_accesses.refs_stored_in_loop[loop->num], ref->id);
1771 : 3899876 : mark_ref_stored (ref, loop);
1772 : : }
1773 : : /* A not simple memory op is also a read when it is a write. */
1774 : 7181494 : if (!is_stored || id == UNANALYZABLE_MEM_ID
1775 : 2695606 : || ref->mem.ref == error_mark_node)
1776 : : {
1777 : 5129862 : bitmap_set_bit (&memory_accesses.refs_loaded_in_loop[loop->num], ref->id);
1778 : 5129862 : mark_ref_loaded (ref, loop);
1779 : : }
1780 : 7181494 : init_lim_data (stmt)->ref = ref->id;
1781 : 7181494 : return;
1782 : : }
1783 : :
1784 : : static unsigned *bb_loop_postorder;
1785 : :
1786 : : /* qsort sort function to sort blocks after their loop fathers postorder. */
1787 : :
1788 : : static int
1789 : 162770817 : sort_bbs_in_loop_postorder_cmp (const void *bb1_, const void *bb2_,
1790 : : void *bb_loop_postorder_)
1791 : : {
1792 : 162770817 : unsigned *bb_loop_postorder = (unsigned *)bb_loop_postorder_;
1793 : 162770817 : basic_block bb1 = *(const basic_block *)bb1_;
1794 : 162770817 : basic_block bb2 = *(const basic_block *)bb2_;
1795 : 162770817 : class loop *loop1 = bb1->loop_father;
1796 : 162770817 : class loop *loop2 = bb2->loop_father;
1797 : 162770817 : if (loop1->num == loop2->num)
1798 : 79637961 : return bb1->index - bb2->index;
1799 : 83132856 : return bb_loop_postorder[loop1->num] < bb_loop_postorder[loop2->num] ? -1 : 1;
1800 : : }
1801 : :
1802 : : /* qsort sort function to sort ref locs after their loop fathers postorder. */
1803 : :
1804 : : static int
1805 : 978581 : sort_locs_in_loop_postorder_cmp (const void *loc1_, const void *loc2_,
1806 : : void *bb_loop_postorder_)
1807 : : {
1808 : 978581 : unsigned *bb_loop_postorder = (unsigned *)bb_loop_postorder_;
1809 : 978581 : const mem_ref_loc *loc1 = (const mem_ref_loc *)loc1_;
1810 : 978581 : const mem_ref_loc *loc2 = (const mem_ref_loc *)loc2_;
1811 : 978581 : class loop *loop1 = gimple_bb (loc1->stmt)->loop_father;
1812 : 978581 : class loop *loop2 = gimple_bb (loc2->stmt)->loop_father;
1813 : 978581 : if (loop1->num == loop2->num)
1814 : : return 0;
1815 : 143317 : return bb_loop_postorder[loop1->num] < bb_loop_postorder[loop2->num] ? -1 : 1;
1816 : : }
1817 : :
1818 : : /* Gathers memory references in loops. */
1819 : :
1820 : : static void
1821 : 477411 : analyze_memory_references (bool store_motion)
1822 : : {
1823 : 477411 : gimple_stmt_iterator bsi;
1824 : 477411 : basic_block bb, *bbs;
1825 : 477411 : class loop *outer;
1826 : 477411 : unsigned i, n;
1827 : :
1828 : : /* Collect all basic-blocks in loops and sort them after their
1829 : : loops postorder. */
1830 : 477411 : i = 0;
1831 : 477411 : bbs = XNEWVEC (basic_block, n_basic_blocks_for_fn (cfun) - NUM_FIXED_BLOCKS);
1832 : 15193693 : FOR_EACH_BB_FN (bb, cfun)
1833 : 14716282 : if (bb->loop_father != current_loops->tree_root)
1834 : 6164782 : bbs[i++] = bb;
1835 : 477411 : n = i;
1836 : 477411 : gcc_sort_r (bbs, n, sizeof (basic_block), sort_bbs_in_loop_postorder_cmp,
1837 : : bb_loop_postorder);
1838 : :
1839 : : /* Visit blocks in loop postorder and assign mem-ref IDs in that order.
1840 : : That results in better locality for all the bitmaps. It also
1841 : : automatically sorts the location list of gathered memory references
1842 : : after their loop postorder number allowing to binary-search it. */
1843 : 6642193 : for (i = 0; i < n; ++i)
1844 : : {
1845 : 6164782 : basic_block bb = bbs[i];
1846 : 56495131 : for (bsi = gsi_start_bb (bb); !gsi_end_p (bsi); gsi_next (&bsi))
1847 : 44165567 : gather_mem_refs_stmt (bb->loop_father, gsi_stmt (bsi));
1848 : : }
1849 : :
1850 : : /* Verify the list of gathered memory references is sorted after their
1851 : : loop postorder number. */
1852 : 477411 : if (flag_checking)
1853 : : {
1854 : : im_mem_ref *ref;
1855 : 11255759 : FOR_EACH_VEC_ELT (memory_accesses.refs_list, i, ref)
1856 : 6367761 : for (unsigned j = 1; j < ref->accesses_in_loop.length (); ++j)
1857 : 978581 : gcc_assert (sort_locs_in_loop_postorder_cmp
1858 : : (&ref->accesses_in_loop[j-1], &ref->accesses_in_loop[j],
1859 : : bb_loop_postorder) <= 0);
1860 : : }
1861 : :
1862 : 477411 : free (bbs);
1863 : :
1864 : 477411 : if (!store_motion)
1865 : 477411 : return;
1866 : :
1867 : : /* Propagate the information about accessed memory references up
1868 : : the loop hierarchy. */
1869 : 2741983 : for (auto loop : loops_list (cfun, LI_FROM_INNERMOST))
1870 : : {
1871 : : /* Finalize the overall touched references (including subloops). */
1872 : 1309933 : bitmap_ior_into (&memory_accesses.all_refs_stored_in_loop[loop->num],
1873 : 1309933 : &memory_accesses.refs_stored_in_loop[loop->num]);
1874 : :
1875 : : /* Propagate the information about accessed memory references up
1876 : : the loop hierarchy. */
1877 : 1309933 : outer = loop_outer (loop);
1878 : 1309933 : if (outer == current_loops->tree_root)
1879 : 1006022 : continue;
1880 : :
1881 : 303911 : bitmap_ior_into (&memory_accesses.all_refs_stored_in_loop[outer->num],
1882 : 303911 : &memory_accesses.all_refs_stored_in_loop[loop->num]);
1883 : 477350 : }
1884 : : }
1885 : :
1886 : : /* Returns true if MEM1 and MEM2 may alias. TTAE_CACHE is used as a cache in
1887 : : tree_to_aff_combination_expand. */
1888 : :
1889 : : static bool
1890 : 552597 : mem_refs_may_alias_p (im_mem_ref *mem1, im_mem_ref *mem2,
1891 : : hash_map<tree, name_expansion *> **ttae_cache,
1892 : : bool tbaa_p)
1893 : : {
1894 : 552597 : gcc_checking_assert (mem1->mem.ref != error_mark_node
1895 : : && mem2->mem.ref != error_mark_node);
1896 : :
1897 : : /* Perform BASE + OFFSET analysis -- if MEM1 and MEM2 are based on the same
1898 : : object and their offset differ in such a way that the locations cannot
1899 : : overlap, then they cannot alias. */
1900 : : poly_widest_int size1, size2;
1901 : 1105194 : aff_tree off1, off2;
1902 : :
1903 : : /* Perform basic offset and type-based disambiguation. */
1904 : 552597 : if (!refs_may_alias_p_1 (&mem1->mem, &mem2->mem, tbaa_p))
1905 : : return false;
1906 : :
1907 : : /* The expansion of addresses may be a bit expensive, thus we only do
1908 : : the check at -O2 and higher optimization levels. */
1909 : 67646 : if (optimize < 2)
1910 : : return true;
1911 : :
1912 : 58184 : get_inner_reference_aff (mem1->mem.ref, &off1, &size1);
1913 : 58184 : get_inner_reference_aff (mem2->mem.ref, &off2, &size2);
1914 : 58184 : aff_combination_expand (&off1, ttae_cache);
1915 : 58184 : aff_combination_expand (&off2, ttae_cache);
1916 : 58184 : aff_combination_scale (&off1, -1);
1917 : 58184 : aff_combination_add (&off2, &off1);
1918 : :
1919 : 58184 : if (aff_comb_cannot_overlap_p (&off2, size1, size2))
1920 : : return false;
1921 : :
1922 : : return true;
1923 : 552597 : }
1924 : :
1925 : : /* Compare function for bsearch searching for reference locations
1926 : : in a loop. */
1927 : :
1928 : : static int
1929 : 272197 : find_ref_loc_in_loop_cmp (const void *loop_, const void *loc_,
1930 : : void *bb_loop_postorder_)
1931 : : {
1932 : 272197 : unsigned *bb_loop_postorder = (unsigned *)bb_loop_postorder_;
1933 : 272197 : class loop *loop = (class loop *)const_cast<void *>(loop_);
1934 : 272197 : mem_ref_loc *loc = (mem_ref_loc *)const_cast<void *>(loc_);
1935 : 272197 : class loop *loc_loop = gimple_bb (loc->stmt)->loop_father;
1936 : 272197 : if (loop->num == loc_loop->num
1937 : 272197 : || flow_loop_nested_p (loop, loc_loop))
1938 : 210758 : return 0;
1939 : 61439 : return (bb_loop_postorder[loop->num] < bb_loop_postorder[loc_loop->num]
1940 : 61439 : ? -1 : 1);
1941 : : }
1942 : :
1943 : : /* Iterates over all locations of REF in LOOP and its subloops calling
1944 : : fn.operator() with the location as argument. When that operator
1945 : : returns true the iteration is stopped and true is returned.
1946 : : Otherwise false is returned. */
1947 : :
1948 : : template <typename FN>
1949 : : static bool
1950 : 210758 : for_all_locs_in_loop (class loop *loop, im_mem_ref *ref, FN fn)
1951 : : {
1952 : : unsigned i;
1953 : : mem_ref_loc *loc;
1954 : :
1955 : : /* Search for the cluster of locs in the accesses_in_loop vector
1956 : : which is sorted after postorder index of the loop father. */
1957 : 210758 : loc = ref->accesses_in_loop.bsearch (loop, find_ref_loc_in_loop_cmp,
1958 : : bb_loop_postorder);
1959 : 210758 : if (!loc)
1960 : 0 : return false;
1961 : :
1962 : : /* We have found one location inside loop or its sub-loops. Iterate
1963 : : both forward and backward to cover the whole cluster. */
1964 : 210758 : i = loc - ref->accesses_in_loop.address ();
1965 : 301042 : while (i > 0)
1966 : : {
1967 : 149527 : --i;
1968 : 149527 : mem_ref_loc *l = &ref->accesses_in_loop[i];
1969 : 149527 : if (!flow_bb_inside_loop_p (loop, gimple_bb (l->stmt)))
1970 : : break;
1971 : 124610 : if (fn (l))
1972 : : return true;
1973 : : }
1974 : 492653 : for (i = loc - ref->accesses_in_loop.address ();
1975 : 316221 : i < ref->accesses_in_loop.length (); ++i)
1976 : : {
1977 : 234791 : mem_ref_loc *l = &ref->accesses_in_loop[i];
1978 : 234791 : if (!flow_bb_inside_loop_p (loop, gimple_bb (l->stmt)))
1979 : : break;
1980 : 213990 : if (fn (l))
1981 : : return true;
1982 : : }
1983 : :
1984 : : return false;
1985 : : }
1986 : :
1987 : : /* Rewrites location LOC by TMP_VAR. */
1988 : :
1989 : : class rewrite_mem_ref_loc
1990 : : {
1991 : : public:
1992 : 34280 : rewrite_mem_ref_loc (tree tmp_var_) : tmp_var (tmp_var_) {}
1993 : : bool operator () (mem_ref_loc *loc);
1994 : : tree tmp_var;
1995 : : };
1996 : :
1997 : : bool
1998 : 55706 : rewrite_mem_ref_loc::operator () (mem_ref_loc *loc)
1999 : : {
2000 : 55706 : *loc->ref = tmp_var;
2001 : 55706 : update_stmt (loc->stmt);
2002 : 55706 : return false;
2003 : : }
2004 : :
2005 : : /* Rewrites all references to REF in LOOP by variable TMP_VAR. */
2006 : :
2007 : : static void
2008 : 34280 : rewrite_mem_refs (class loop *loop, im_mem_ref *ref, tree tmp_var)
2009 : : {
2010 : 0 : for_all_locs_in_loop (loop, ref, rewrite_mem_ref_loc (tmp_var));
2011 : 0 : }
2012 : :
2013 : : /* Stores the first reference location in LOCP. */
2014 : :
2015 : : class first_mem_ref_loc_1
2016 : : {
2017 : : public:
2018 : 34280 : first_mem_ref_loc_1 (mem_ref_loc **locp_) : locp (locp_) {}
2019 : : bool operator () (mem_ref_loc *loc);
2020 : : mem_ref_loc **locp;
2021 : : };
2022 : :
2023 : : bool
2024 : 34280 : first_mem_ref_loc_1::operator () (mem_ref_loc *loc)
2025 : : {
2026 : 34280 : *locp = loc;
2027 : 34280 : return true;
2028 : : }
2029 : :
2030 : : /* Returns the first reference location to REF in LOOP. */
2031 : :
2032 : : static mem_ref_loc *
2033 : 34280 : first_mem_ref_loc (class loop *loop, im_mem_ref *ref)
2034 : : {
2035 : 34280 : mem_ref_loc *locp = NULL;
2036 : 0 : for_all_locs_in_loop (loop, ref, first_mem_ref_loc_1 (&locp));
2037 : 34280 : return locp;
2038 : : }
2039 : :
2040 : : /* Helper function for execute_sm. Emit code to store TMP_VAR into
2041 : : MEM along edge EX.
2042 : :
2043 : : The store is only done if MEM has changed. We do this so no
2044 : : changes to MEM occur on code paths that did not originally store
2045 : : into it.
2046 : :
2047 : : The common case for execute_sm will transform:
2048 : :
2049 : : for (...) {
2050 : : if (foo)
2051 : : stuff;
2052 : : else
2053 : : MEM = TMP_VAR;
2054 : : }
2055 : :
2056 : : into:
2057 : :
2058 : : lsm = MEM;
2059 : : for (...) {
2060 : : if (foo)
2061 : : stuff;
2062 : : else
2063 : : lsm = TMP_VAR;
2064 : : }
2065 : : MEM = lsm;
2066 : :
2067 : : This function will generate:
2068 : :
2069 : : lsm = MEM;
2070 : :
2071 : : lsm_flag = false;
2072 : : ...
2073 : : for (...) {
2074 : : if (foo)
2075 : : stuff;
2076 : : else {
2077 : : lsm = TMP_VAR;
2078 : : lsm_flag = true;
2079 : : }
2080 : : }
2081 : : if (lsm_flag) <--
2082 : : MEM = lsm; <-- (X)
2083 : :
2084 : : In case MEM and TMP_VAR are NULL the function will return the then
2085 : : block so the caller can insert (X) and other related stmts.
2086 : : */
2087 : :
2088 : : static basic_block
2089 : 14869 : execute_sm_if_changed (edge ex, tree mem, tree tmp_var, tree flag,
2090 : : edge preheader, hash_set <basic_block> *flag_bbs,
2091 : : edge &append_cond_position, edge &last_cond_fallthru)
2092 : : {
2093 : 14869 : basic_block new_bb, then_bb, old_dest;
2094 : 14869 : bool loop_has_only_one_exit;
2095 : 14869 : edge then_old_edge;
2096 : 14869 : gimple_stmt_iterator gsi;
2097 : 14869 : gimple *stmt;
2098 : 14869 : bool irr = ex->flags & EDGE_IRREDUCIBLE_LOOP;
2099 : :
2100 : 14869 : profile_count count_sum = profile_count::zero ();
2101 : 14869 : int nbbs = 0, ncount = 0;
2102 : 14869 : profile_probability flag_probability = profile_probability::uninitialized ();
2103 : :
2104 : : /* Flag is set in FLAG_BBS. Determine probability that flag will be true
2105 : : at loop exit.
2106 : :
2107 : : This code may look fancy, but it cannot update profile very realistically
2108 : : because we do not know the probability that flag will be true at given
2109 : : loop exit.
2110 : :
2111 : : We look for two interesting extremes
2112 : : - when exit is dominated by block setting the flag, we know it will
2113 : : always be true. This is a common case.
2114 : : - when all blocks setting the flag have very low frequency we know
2115 : : it will likely be false.
2116 : : In all other cases we default to 2/3 for flag being true. */
2117 : :
2118 : 14869 : for (hash_set<basic_block>::iterator it = flag_bbs->begin ();
2119 : 49325 : it != flag_bbs->end (); ++it)
2120 : : {
2121 : 17228 : if ((*it)->count.initialized_p ())
2122 : 17215 : count_sum += (*it)->count, ncount ++;
2123 : 17228 : if (dominated_by_p (CDI_DOMINATORS, ex->src, *it))
2124 : 2203 : flag_probability = profile_probability::always ();
2125 : 17228 : nbbs++;
2126 : : }
2127 : :
2128 : 14869 : profile_probability cap
2129 : 14869 : = profile_probability::guessed_always ().apply_scale (2, 3);
2130 : :
2131 : 14869 : if (flag_probability.initialized_p ())
2132 : : ;
2133 : 12709 : else if (ncount == nbbs
2134 : 25664 : && preheader->count () >= count_sum && preheader->count ().nonzero_p ())
2135 : : {
2136 : 181 : flag_probability = count_sum.probability_in (preheader->count ());
2137 : 181 : if (flag_probability > cap)
2138 : 56 : flag_probability = cap;
2139 : : }
2140 : :
2141 : 14869 : if (!flag_probability.initialized_p ())
2142 : 12528 : flag_probability = cap;
2143 : :
2144 : : /* ?? Insert store after previous store if applicable. See note
2145 : : below. */
2146 : 14869 : if (append_cond_position)
2147 : 6073 : ex = append_cond_position;
2148 : :
2149 : 14869 : loop_has_only_one_exit = single_pred_p (ex->dest);
2150 : :
2151 : 14869 : if (loop_has_only_one_exit)
2152 : 6113 : ex = split_block_after_labels (ex->dest);
2153 : : else
2154 : : {
2155 : 8756 : for (gphi_iterator gpi = gsi_start_phis (ex->dest);
2156 : 12409 : !gsi_end_p (gpi); gsi_next (&gpi))
2157 : : {
2158 : 4343 : gphi *phi = gpi.phi ();
2159 : 8686 : if (virtual_operand_p (gimple_phi_result (phi)))
2160 : 3653 : continue;
2161 : :
2162 : : /* When the destination has a non-virtual PHI node with multiple
2163 : : predecessors make sure we preserve the PHI structure by
2164 : : forcing a forwarder block so that hoisting of that PHI will
2165 : : still work. */
2166 : 690 : split_edge (ex);
2167 : 690 : break;
2168 : : }
2169 : : }
2170 : :
2171 : 14869 : old_dest = ex->dest;
2172 : 14869 : new_bb = split_edge (ex);
2173 : 14869 : if (append_cond_position)
2174 : 6073 : new_bb->count += last_cond_fallthru->count ();
2175 : 14869 : then_bb = create_empty_bb (new_bb);
2176 : 14869 : then_bb->count = new_bb->count.apply_probability (flag_probability);
2177 : 14869 : if (irr)
2178 : 49 : then_bb->flags = BB_IRREDUCIBLE_LOOP;
2179 : 14869 : add_bb_to_loop (then_bb, new_bb->loop_father);
2180 : :
2181 : 14869 : gsi = gsi_start_bb (new_bb);
2182 : 14869 : stmt = gimple_build_cond (NE_EXPR, flag, boolean_false_node,
2183 : : NULL_TREE, NULL_TREE);
2184 : 14869 : gsi_insert_after (&gsi, stmt, GSI_CONTINUE_LINKING);
2185 : :
2186 : : /* Insert actual store. */
2187 : 14869 : if (mem)
2188 : : {
2189 : 12583 : gsi = gsi_start_bb (then_bb);
2190 : 12583 : stmt = gimple_build_assign (unshare_expr (mem), tmp_var);
2191 : 12583 : gsi_insert_after (&gsi, stmt, GSI_CONTINUE_LINKING);
2192 : : }
2193 : :
2194 : 14869 : edge e1 = single_succ_edge (new_bb);
2195 : 29689 : edge e2 = make_edge (new_bb, then_bb,
2196 : : EDGE_TRUE_VALUE | (irr ? EDGE_IRREDUCIBLE_LOOP : 0));
2197 : 14869 : e2->probability = flag_probability;
2198 : :
2199 : 14869 : e1->flags |= EDGE_FALSE_VALUE | (irr ? EDGE_IRREDUCIBLE_LOOP : 0);
2200 : 14869 : e1->flags &= ~EDGE_FALLTHRU;
2201 : :
2202 : 14869 : e1->probability = flag_probability.invert ();
2203 : :
2204 : 29689 : then_old_edge = make_single_succ_edge (then_bb, old_dest,
2205 : : EDGE_FALLTHRU | (irr ? EDGE_IRREDUCIBLE_LOOP : 0));
2206 : :
2207 : 14869 : set_immediate_dominator (CDI_DOMINATORS, then_bb, new_bb);
2208 : :
2209 : 14869 : if (append_cond_position)
2210 : : {
2211 : 6073 : basic_block prevbb = last_cond_fallthru->src;
2212 : 6073 : redirect_edge_succ (last_cond_fallthru, new_bb);
2213 : 6073 : set_immediate_dominator (CDI_DOMINATORS, new_bb, prevbb);
2214 : 6073 : set_immediate_dominator (CDI_DOMINATORS, old_dest,
2215 : : recompute_dominator (CDI_DOMINATORS, old_dest));
2216 : : }
2217 : :
2218 : : /* ?? Because stores may alias, they must happen in the exact
2219 : : sequence they originally happened. Save the position right after
2220 : : the (_lsm) store we just created so we can continue appending after
2221 : : it and maintain the original order. */
2222 : 14869 : append_cond_position = then_old_edge;
2223 : 14869 : last_cond_fallthru = find_edge (new_bb, old_dest);
2224 : :
2225 : 14869 : if (!loop_has_only_one_exit)
2226 : 8756 : for (gphi_iterator gpi = gsi_start_phis (old_dest);
2227 : 12287 : !gsi_end_p (gpi); gsi_next (&gpi))
2228 : : {
2229 : 3531 : gphi *phi = gpi.phi ();
2230 : 3531 : unsigned i;
2231 : :
2232 : 19752 : for (i = 0; i < gimple_phi_num_args (phi); i++)
2233 : 16221 : if (gimple_phi_arg_edge (phi, i)->src == new_bb)
2234 : : {
2235 : 3531 : tree arg = gimple_phi_arg_def (phi, i);
2236 : 3531 : add_phi_arg (phi, arg, then_old_edge, UNKNOWN_LOCATION);
2237 : 3531 : update_stmt (phi);
2238 : : }
2239 : : }
2240 : :
2241 : 14869 : return then_bb;
2242 : : }
2243 : :
2244 : : /* When REF is set on the location, set flag indicating the store. */
2245 : :
2246 : : class sm_set_flag_if_changed
2247 : : {
2248 : : public:
2249 : 7795 : sm_set_flag_if_changed (tree flag_, hash_set <basic_block> *bbs_)
2250 : 7795 : : flag (flag_), bbs (bbs_) {}
2251 : : bool operator () (mem_ref_loc *loc);
2252 : : tree flag;
2253 : : hash_set <basic_block> *bbs;
2254 : : };
2255 : :
2256 : : bool
2257 : 14830 : sm_set_flag_if_changed::operator () (mem_ref_loc *loc)
2258 : : {
2259 : : /* Only set the flag for writes. */
2260 : 14830 : if (is_gimple_assign (loc->stmt)
2261 : 14830 : && gimple_assign_lhs_ptr (loc->stmt) == loc->ref)
2262 : : {
2263 : 8951 : gimple_stmt_iterator gsi = gsi_for_stmt (loc->stmt);
2264 : 8951 : gimple *stmt = gimple_build_assign (flag, boolean_true_node);
2265 : 8951 : gsi_insert_after (&gsi, stmt, GSI_CONTINUE_LINKING);
2266 : 8951 : bbs->add (gimple_bb (stmt));
2267 : : }
2268 : 14830 : return false;
2269 : : }
2270 : :
2271 : : /* Helper function for execute_sm. On every location where REF is
2272 : : set, set an appropriate flag indicating the store. */
2273 : :
2274 : : static tree
2275 : 7795 : execute_sm_if_changed_flag_set (class loop *loop, im_mem_ref *ref,
2276 : : hash_set <basic_block> *bbs)
2277 : : {
2278 : 7795 : tree flag;
2279 : 7795 : char *str = get_lsm_tmp_name (ref->mem.ref, ~0, "_flag");
2280 : 7795 : flag = create_tmp_reg (boolean_type_node, str);
2281 : 7795 : for_all_locs_in_loop (loop, ref, sm_set_flag_if_changed (flag, bbs));
2282 : 7795 : return flag;
2283 : : }
2284 : :
2285 : 34280 : struct sm_aux
2286 : : {
2287 : : tree tmp_var;
2288 : : tree store_flag;
2289 : : hash_set <basic_block> flag_bbs;
2290 : : };
2291 : :
2292 : : /* Executes store motion of memory reference REF from LOOP.
2293 : : Exits from the LOOP are stored in EXITS. The initialization of the
2294 : : temporary variable is put to the preheader of the loop, and assignments
2295 : : to the reference from the temporary variable are emitted to exits. */
2296 : :
2297 : : static sm_aux *
2298 : 34280 : execute_sm (class loop *loop, im_mem_ref *ref,
2299 : : hash_map<im_mem_ref *, sm_aux *> &aux_map, bool maybe_mt,
2300 : : bool use_other_flag_var)
2301 : : {
2302 : 34280 : gassign *load;
2303 : 34280 : struct fmt_data fmt_data;
2304 : 34280 : struct lim_aux_data *lim_data;
2305 : 34280 : bool multi_threaded_model_p = false;
2306 : 34280 : gimple_stmt_iterator gsi;
2307 : 34280 : sm_aux *aux = new sm_aux;
2308 : :
2309 : 34280 : if (dump_file && (dump_flags & TDF_DETAILS))
2310 : : {
2311 : 82 : fprintf (dump_file, "Executing store motion of ");
2312 : 82 : print_generic_expr (dump_file, ref->mem.ref);
2313 : 82 : fprintf (dump_file, " from loop %d\n", loop->num);
2314 : : }
2315 : :
2316 : 34280 : aux->tmp_var = create_tmp_reg (TREE_TYPE (ref->mem.ref),
2317 : 34280 : get_lsm_tmp_name (ref->mem.ref, ~0));
2318 : :
2319 : 34280 : fmt_data.loop = loop;
2320 : 34280 : fmt_data.orig_loop = loop;
2321 : 34280 : for_each_index (&ref->mem.ref, force_move_till, &fmt_data);
2322 : :
2323 : 68560 : bool always_stored = ref_always_accessed_p (loop, ref, true);
2324 : 34280 : if (maybe_mt
2325 : 11745 : && (bb_in_transaction (loop_preheader_edge (loop)->src)
2326 : 11744 : || (ref_can_have_store_data_races (ref->mem.ref) && ! always_stored)))
2327 : : multi_threaded_model_p = true;
2328 : :
2329 : 34280 : if (multi_threaded_model_p && !use_other_flag_var)
2330 : 7795 : aux->store_flag
2331 : 7795 : = execute_sm_if_changed_flag_set (loop, ref, &aux->flag_bbs);
2332 : : else
2333 : 26485 : aux->store_flag = NULL_TREE;
2334 : :
2335 : : /* Remember variable setup. */
2336 : 34280 : aux_map.put (ref, aux);
2337 : :
2338 : 34280 : rewrite_mem_refs (loop, ref, aux->tmp_var);
2339 : :
2340 : : /* Emit the load code on a random exit edge or into the latch if
2341 : : the loop does not exit, so that we are sure it will be processed
2342 : : by move_computations after all dependencies. */
2343 : 34280 : gsi = gsi_for_stmt (first_mem_ref_loc (loop, ref)->stmt);
2344 : :
2345 : : /* Avoid doing a load if there was no load of the ref in the loop.
2346 : : Esp. when the ref is not always stored we cannot optimize it
2347 : : away later. But when it is not always stored we must use a conditional
2348 : : store then. */
2349 : 34280 : if ((!always_stored && !multi_threaded_model_p)
2350 : 34280 : || (ref->loaded && bitmap_bit_p (ref->loaded, loop->num)))
2351 : 17932 : load = gimple_build_assign (aux->tmp_var, unshare_expr (ref->mem.ref));
2352 : : else
2353 : : {
2354 : : /* If not emitting a load mark the uninitialized state on the
2355 : : loop entry as not to be warned for. */
2356 : 16348 : tree uninit = create_tmp_reg (TREE_TYPE (aux->tmp_var));
2357 : 16348 : suppress_warning (uninit, OPT_Wuninitialized);
2358 : 16348 : load = gimple_build_assign (aux->tmp_var, uninit);
2359 : : }
2360 : 34280 : lim_data = init_lim_data (load);
2361 : 34280 : lim_data->max_loop = loop;
2362 : 34280 : lim_data->tgt_loop = loop;
2363 : 34280 : gsi_insert_before (&gsi, load, GSI_SAME_STMT);
2364 : :
2365 : 34280 : if (aux->store_flag)
2366 : : {
2367 : 7795 : load = gimple_build_assign (aux->store_flag, boolean_false_node);
2368 : 7795 : lim_data = init_lim_data (load);
2369 : 7795 : lim_data->max_loop = loop;
2370 : 7795 : lim_data->tgt_loop = loop;
2371 : 7795 : gsi_insert_before (&gsi, load, GSI_SAME_STMT);
2372 : : }
2373 : :
2374 : 34280 : return aux;
2375 : : }
2376 : :
2377 : : /* sm_ord is used for ordinary stores we can retain order with respect
2378 : : to other stores
2379 : : sm_unord is used for conditional executed stores which need to be
2380 : : able to execute in arbitrary order with respect to other stores
2381 : : sm_other is used for stores we do not try to apply store motion to. */
2382 : : enum sm_kind { sm_ord, sm_unord, sm_other };
2383 : : struct seq_entry
2384 : : {
2385 : : seq_entry () = default;
2386 : 52360 : seq_entry (unsigned f, sm_kind k, tree fr = NULL)
2387 : 52360 : : first (f), second (k), from (fr) {}
2388 : : unsigned first;
2389 : : sm_kind second;
2390 : : tree from;
2391 : : };
2392 : :
2393 : : static void
2394 : 33191 : execute_sm_exit (class loop *loop, edge ex, vec<seq_entry> &seq,
2395 : : hash_map<im_mem_ref *, sm_aux *> &aux_map, sm_kind kind,
2396 : : edge &append_cond_position, edge &last_cond_fallthru,
2397 : : bitmap clobbers_to_prune)
2398 : : {
2399 : : /* Sink the stores to exit from the loop. */
2400 : 116219 : for (unsigned i = seq.length (); i > 0; --i)
2401 : : {
2402 : 49837 : im_mem_ref *ref = memory_accesses.refs_list[seq[i-1].first];
2403 : 49837 : if (seq[i-1].second == sm_other)
2404 : : {
2405 : 4976 : gcc_assert (kind == sm_ord && seq[i-1].from != NULL_TREE);
2406 : 4976 : gassign *store;
2407 : 4976 : if (ref->mem.ref == error_mark_node)
2408 : : {
2409 : 151 : tree lhs = gimple_assign_lhs (ref->accesses_in_loop[0].stmt);
2410 : 151 : if (dump_file && (dump_flags & TDF_DETAILS))
2411 : : {
2412 : 3 : fprintf (dump_file, "Re-issueing dependent ");
2413 : 3 : print_generic_expr (dump_file, unshare_expr (seq[i-1].from));
2414 : 3 : fprintf (dump_file, " of ");
2415 : 3 : print_generic_expr (dump_file, lhs);
2416 : 3 : fprintf (dump_file, " from loop %d on exit %d -> %d\n",
2417 : 3 : loop->num, ex->src->index, ex->dest->index);
2418 : : }
2419 : 151 : store = gimple_build_assign (unshare_expr (lhs),
2420 : 151 : unshare_expr (seq[i-1].from));
2421 : 151 : bitmap_set_bit (clobbers_to_prune, seq[i-1].first);
2422 : : }
2423 : : else
2424 : : {
2425 : 4825 : if (dump_file && (dump_flags & TDF_DETAILS))
2426 : : {
2427 : 0 : fprintf (dump_file, "Re-issueing dependent store of ");
2428 : 0 : print_generic_expr (dump_file, ref->mem.ref);
2429 : 0 : fprintf (dump_file, " from loop %d on exit %d -> %d\n",
2430 : 0 : loop->num, ex->src->index, ex->dest->index);
2431 : : }
2432 : 4825 : store = gimple_build_assign (unshare_expr (ref->mem.ref),
2433 : 4825 : seq[i-1].from);
2434 : : }
2435 : 4976 : gsi_insert_on_edge (ex, store);
2436 : : }
2437 : : else
2438 : : {
2439 : 44861 : sm_aux *aux = *aux_map.get (ref);
2440 : 44861 : if (!aux->store_flag || kind == sm_ord)
2441 : : {
2442 : 32278 : gassign *store;
2443 : 32278 : store = gimple_build_assign (unshare_expr (ref->mem.ref),
2444 : : aux->tmp_var);
2445 : 32278 : gsi_insert_on_edge (ex, store);
2446 : 32278 : }
2447 : : else
2448 : 12583 : execute_sm_if_changed (ex, ref->mem.ref, aux->tmp_var,
2449 : : aux->store_flag,
2450 : : loop_preheader_edge (loop), &aux->flag_bbs,
2451 : : append_cond_position, last_cond_fallthru);
2452 : : }
2453 : : }
2454 : 33191 : }
2455 : :
2456 : : /* Push the SM candidate at index PTR in the sequence SEQ down until
2457 : : we hit the next SM candidate. Return true if that went OK and
2458 : : false if we could not disambiguate agains another unrelated ref.
2459 : : Update *AT to the index where the candidate now resides. */
2460 : :
2461 : : static bool
2462 : 36059 : sm_seq_push_down (vec<seq_entry> &seq, unsigned ptr, unsigned *at)
2463 : : {
2464 : 36059 : *at = ptr;
2465 : 36881 : for (; ptr > 0; --ptr)
2466 : : {
2467 : 16716 : seq_entry &new_cand = seq[ptr];
2468 : 16716 : seq_entry &against = seq[ptr-1];
2469 : 16716 : if (against.second == sm_ord
2470 : 5871 : || (against.second == sm_other && against.from != NULL_TREE))
2471 : : /* Found the tail of the sequence. */
2472 : : break;
2473 : : /* We may not ignore self-dependences here. */
2474 : 1159 : if (new_cand.first == against.first
2475 : : /* ??? We could actually handle clobbers here, but not easily
2476 : : with LIMs dependence analysis. */
2477 : 943 : || (memory_accesses.refs_list[new_cand.first]->mem.ref
2478 : 943 : == error_mark_node)
2479 : 938 : || (memory_accesses.refs_list[against.first]->mem.ref
2480 : : == error_mark_node)
2481 : 2025 : || !refs_independent_p (memory_accesses.refs_list[new_cand.first],
2482 : 866 : memory_accesses.refs_list[against.first],
2483 : : false))
2484 : : /* ??? Prune new_cand from the list of refs to apply SM to. */
2485 : 337 : return false;
2486 : 822 : std::swap (new_cand, against);
2487 : 822 : *at = ptr - 1;
2488 : : }
2489 : : return true;
2490 : : }
2491 : :
2492 : : /* Computes the sequence of stores from candidates in REFS_NOT_IN_SEQ to SEQ
2493 : : walking backwards from VDEF (or the end of BB if VDEF is NULL). */
2494 : :
2495 : : static int
2496 : 35462 : sm_seq_valid_bb (class loop *loop, basic_block bb, tree vdef,
2497 : : vec<seq_entry> &seq, bitmap refs_not_in_seq,
2498 : : bitmap refs_not_supported, bool forked,
2499 : : bitmap fully_visited)
2500 : : {
2501 : 35462 : if (!vdef)
2502 : 26267 : for (gimple_stmt_iterator gsi = gsi_last_bb (bb); !gsi_end_p (gsi);
2503 : 118639 : gsi_prev (&gsi))
2504 : : {
2505 : 145073 : vdef = gimple_vdef (gsi_stmt (gsi));
2506 : 52701 : if (vdef)
2507 : : break;
2508 : : }
2509 : 26267 : if (!vdef)
2510 : : {
2511 : 8631 : gphi *vphi = get_virtual_phi (bb);
2512 : 8631 : if (vphi)
2513 : 4320 : vdef = gimple_phi_result (vphi);
2514 : : }
2515 : 35462 : if (!vdef)
2516 : : {
2517 : 4311 : if (single_pred_p (bb))
2518 : : /* This handles the perfect nest case. */
2519 : 3533 : return sm_seq_valid_bb (loop, single_pred (bb), vdef,
2520 : : seq, refs_not_in_seq, refs_not_supported,
2521 : 3533 : forked, fully_visited);
2522 : : return 0;
2523 : : }
2524 : 55728 : do
2525 : : {
2526 : 111456 : gimple *def = SSA_NAME_DEF_STMT (vdef);
2527 : 55728 : if (gimple_bb (def) != bb)
2528 : : {
2529 : : /* If we forked by processing a PHI do not allow our walk to
2530 : : merge again until we handle that robustly. */
2531 : 3263 : if (forked)
2532 : : {
2533 : : /* Mark refs_not_in_seq as unsupported. */
2534 : 1464 : bitmap_ior_into (refs_not_supported, refs_not_in_seq);
2535 : 1464 : return 1;
2536 : : }
2537 : : /* Otherwise it doesn't really matter if we end up in different
2538 : : BBs. */
2539 : : bb = gimple_bb (def);
2540 : : }
2541 : 54264 : if (gphi *phi = dyn_cast <gphi *> (def))
2542 : : {
2543 : : /* Handle CFG merges. Until we handle forks (gimple_bb (def) != bb)
2544 : : this is still linear.
2545 : : Eventually we want to cache intermediate results per BB
2546 : : (but we can't easily cache for different exits?). */
2547 : : /* Stop at PHIs with possible backedges. */
2548 : 11058 : if (bb == bb->loop_father->header
2549 : 5635 : || bb->flags & BB_IRREDUCIBLE_LOOP)
2550 : : {
2551 : : /* Mark refs_not_in_seq as unsupported. */
2552 : 5428 : bitmap_ior_into (refs_not_supported, refs_not_in_seq);
2553 : 5428 : return 1;
2554 : : }
2555 : 5630 : if (gimple_phi_num_args (phi) == 1)
2556 : 1580 : return sm_seq_valid_bb (loop, gimple_phi_arg_edge (phi, 0)->src,
2557 : : gimple_phi_arg_def (phi, 0), seq,
2558 : : refs_not_in_seq, refs_not_supported,
2559 : 1580 : false, fully_visited);
2560 : 8100 : if (bitmap_bit_p (fully_visited,
2561 : 4050 : SSA_NAME_VERSION (gimple_phi_result (phi))))
2562 : : return 1;
2563 : 3946 : auto_vec<seq_entry> first_edge_seq;
2564 : 3946 : auto_bitmap tem_refs_not_in_seq (&lim_bitmap_obstack);
2565 : 3946 : int eret;
2566 : 3946 : bitmap_copy (tem_refs_not_in_seq, refs_not_in_seq);
2567 : 3946 : eret = sm_seq_valid_bb (loop, gimple_phi_arg_edge (phi, 0)->src,
2568 : : gimple_phi_arg_def (phi, 0),
2569 : : first_edge_seq,
2570 : : tem_refs_not_in_seq, refs_not_supported,
2571 : : true, fully_visited);
2572 : 3946 : if (eret != 1)
2573 : : return -1;
2574 : : /* Simplify our lives by pruning the sequence of !sm_ord. */
2575 : 4866 : while (!first_edge_seq.is_empty ()
2576 : 11515 : && first_edge_seq.last ().second != sm_ord)
2577 : 2703 : first_edge_seq.pop ();
2578 : 7615 : for (unsigned int i = 1; i < gimple_phi_num_args (phi); ++i)
2579 : : {
2580 : 5662 : tree vuse = gimple_phi_arg_def (phi, i);
2581 : 5662 : edge e = gimple_phi_arg_edge (phi, i);
2582 : 5662 : auto_vec<seq_entry> edge_seq;
2583 : 5662 : bitmap_and_compl (tem_refs_not_in_seq,
2584 : : refs_not_in_seq, refs_not_supported);
2585 : : /* If we've marked all refs we search for as unsupported
2586 : : we can stop processing and use the sequence as before
2587 : : the PHI. */
2588 : 5662 : if (bitmap_empty_p (tem_refs_not_in_seq))
2589 : : return 1;
2590 : 3669 : eret = sm_seq_valid_bb (loop, e->src, vuse, edge_seq,
2591 : : tem_refs_not_in_seq, refs_not_supported,
2592 : : true, fully_visited);
2593 : 3669 : if (eret != 1)
2594 : : return -1;
2595 : : /* Simplify our lives by pruning the sequence of !sm_ord. */
2596 : 4816 : while (!edge_seq.is_empty ()
2597 : 11254 : && edge_seq.last ().second != sm_ord)
2598 : 2769 : edge_seq.pop ();
2599 : 7338 : unsigned min_len = MIN(first_edge_seq.length (),
2600 : : edge_seq.length ());
2601 : : /* Incrementally merge seqs into first_edge_seq. */
2602 : 3669 : int first_uneq = -1;
2603 : 3669 : auto_vec<seq_entry, 2> extra_refs;
2604 : 5787 : for (unsigned int i = 0; i < min_len; ++i)
2605 : : {
2606 : : /* ??? We can more intelligently merge when we face different
2607 : : order by additional sinking operations in one sequence.
2608 : : For now we simply mark them as to be processed by the
2609 : : not order-preserving SM code. */
2610 : 2118 : if (first_edge_seq[i].first != edge_seq[i].first)
2611 : : {
2612 : 44 : if (first_edge_seq[i].second == sm_ord)
2613 : 26 : bitmap_set_bit (refs_not_supported,
2614 : 26 : first_edge_seq[i].first);
2615 : 44 : if (edge_seq[i].second == sm_ord)
2616 : 29 : bitmap_set_bit (refs_not_supported, edge_seq[i].first);
2617 : 44 : first_edge_seq[i].second = sm_other;
2618 : 44 : first_edge_seq[i].from = NULL_TREE;
2619 : : /* Record the dropped refs for later processing. */
2620 : 44 : if (first_uneq == -1)
2621 : 40 : first_uneq = i;
2622 : 88 : extra_refs.safe_push (seq_entry (edge_seq[i].first,
2623 : 44 : sm_other, NULL_TREE));
2624 : : }
2625 : : /* sm_other prevails. */
2626 : 2074 : else if (first_edge_seq[i].second != edge_seq[i].second)
2627 : : {
2628 : : /* Make sure the ref is marked as not supported. */
2629 : 0 : bitmap_set_bit (refs_not_supported,
2630 : 0 : first_edge_seq[i].first);
2631 : 0 : first_edge_seq[i].second = sm_other;
2632 : 0 : first_edge_seq[i].from = NULL_TREE;
2633 : : }
2634 : 2074 : else if (first_edge_seq[i].second == sm_other
2635 : 21 : && first_edge_seq[i].from != NULL_TREE
2636 : 2095 : && (edge_seq[i].from == NULL_TREE
2637 : 21 : || !operand_equal_p (first_edge_seq[i].from,
2638 : 21 : edge_seq[i].from, 0)))
2639 : 15 : first_edge_seq[i].from = NULL_TREE;
2640 : : }
2641 : : /* Any excess elements become sm_other since they are now
2642 : : coonditionally executed. */
2643 : 10421 : if (first_edge_seq.length () > edge_seq.length ())
2644 : : {
2645 : 5745 : for (unsigned i = edge_seq.length ();
2646 : 7592 : i < first_edge_seq.length (); ++i)
2647 : : {
2648 : 5745 : if (first_edge_seq[i].second == sm_ord)
2649 : 2791 : bitmap_set_bit (refs_not_supported,
2650 : 2791 : first_edge_seq[i].first);
2651 : 5745 : first_edge_seq[i].second = sm_other;
2652 : : }
2653 : : }
2654 : 1822 : else if (edge_seq.length () > first_edge_seq.length ())
2655 : : {
2656 : 12 : if (first_uneq == -1)
2657 : 0 : first_uneq = first_edge_seq.length ();
2658 : 12 : for (unsigned i = first_edge_seq.length ();
2659 : 36 : i < edge_seq.length (); ++i)
2660 : : {
2661 : 24 : if (edge_seq[i].second == sm_ord)
2662 : 12 : bitmap_set_bit (refs_not_supported, edge_seq[i].first);
2663 : 48 : extra_refs.safe_push (seq_entry (edge_seq[i].first,
2664 : 24 : sm_other, NULL_TREE));
2665 : : }
2666 : : }
2667 : : /* Put unmerged refs at first_uneq to force dependence checking
2668 : : on them. */
2669 : 3669 : if (first_uneq != -1)
2670 : : {
2671 : : /* Missing ordered_splice_at. */
2672 : 80 : if ((unsigned)first_uneq == first_edge_seq.length ())
2673 : 0 : first_edge_seq.safe_splice (extra_refs);
2674 : : else
2675 : : {
2676 : 40 : unsigned fes_length = first_edge_seq.length ();
2677 : 40 : first_edge_seq.safe_grow (fes_length
2678 : 40 : + extra_refs.length ());
2679 : 40 : memmove (&first_edge_seq[first_uneq + extra_refs.length ()],
2680 : 40 : &first_edge_seq[first_uneq],
2681 : 40 : (fes_length - first_uneq) * sizeof (seq_entry));
2682 : 80 : memcpy (&first_edge_seq[first_uneq],
2683 : 40 : extra_refs.address (),
2684 : 40 : extra_refs.length () * sizeof (seq_entry));
2685 : : }
2686 : : }
2687 : 5662 : }
2688 : : /* Use the sequence from the first edge and push SMs down. */
2689 : 5696 : for (unsigned i = 0; i < first_edge_seq.length (); ++i)
2690 : : {
2691 : 3743 : unsigned id = first_edge_seq[i].first;
2692 : 3743 : seq.safe_push (first_edge_seq[i]);
2693 : 3743 : unsigned new_idx;
2694 : 3743 : if ((first_edge_seq[i].second == sm_ord
2695 : 3196 : || (first_edge_seq[i].second == sm_other
2696 : 3196 : && first_edge_seq[i].from != NULL_TREE))
2697 : 4943 : && !sm_seq_push_down (seq, seq.length () - 1, &new_idx))
2698 : : {
2699 : 125 : if (first_edge_seq[i].second == sm_ord)
2700 : 0 : bitmap_set_bit (refs_not_supported, id);
2701 : : /* Mark it sm_other. */
2702 : 125 : seq[new_idx].second = sm_other;
2703 : 125 : seq[new_idx].from = NULL_TREE;
2704 : : }
2705 : : }
2706 : 1953 : bitmap_set_bit (fully_visited,
2707 : 1953 : SSA_NAME_VERSION (gimple_phi_result (phi)));
2708 : 1953 : return 1;
2709 : 3946 : }
2710 : 43206 : lim_aux_data *data = get_lim_data (def);
2711 : 43206 : im_mem_ref *ref = memory_accesses.refs_list[data->ref];
2712 : 43206 : if (data->ref == UNANALYZABLE_MEM_ID)
2713 : : return -1;
2714 : : /* Stop at memory references which we can't move. */
2715 : 43206 : else if ((ref->mem.ref == error_mark_node
2716 : : /* We can move end-of-storage/object down. */
2717 : 459 : && !gimple_clobber_p (ref->accesses_in_loop[0].stmt,
2718 : : CLOBBER_STORAGE_END)
2719 : 317 : && !gimple_clobber_p (ref->accesses_in_loop[0].stmt,
2720 : : CLOBBER_OBJECT_END))
2721 : 43535 : || TREE_THIS_VOLATILE (ref->mem.ref))
2722 : : {
2723 : : /* Mark refs_not_in_seq as unsupported. */
2724 : 159 : bitmap_ior_into (refs_not_supported, refs_not_in_seq);
2725 : 159 : return 1;
2726 : : }
2727 : : /* One of the stores we want to apply SM to and we've not yet seen. */
2728 : 43047 : else if (bitmap_clear_bit (refs_not_in_seq, data->ref))
2729 : : {
2730 : 31914 : seq.safe_push (seq_entry (data->ref, sm_ord));
2731 : :
2732 : : /* 1) push it down the queue until a SMed
2733 : : and not ignored ref is reached, skipping all not SMed refs
2734 : : and ignored refs via non-TBAA disambiguation. */
2735 : 31914 : unsigned new_idx;
2736 : 63828 : if (!sm_seq_push_down (seq, seq.length () - 1, &new_idx)
2737 : : /* If that fails but we did not fork yet continue, we'll see
2738 : : to re-materialize all of the stores in the sequence then.
2739 : : Further stores will only be pushed up to this one. */
2740 : 31914 : && forked)
2741 : : {
2742 : 0 : bitmap_set_bit (refs_not_supported, data->ref);
2743 : : /* Mark it sm_other. */
2744 : 0 : seq[new_idx].second = sm_other;
2745 : : }
2746 : :
2747 : : /* 2) check whether we've seen all refs we want to SM and if so
2748 : : declare success for the active exit */
2749 : 31914 : if (bitmap_empty_p (refs_not_in_seq))
2750 : 18470 : return 1;
2751 : : }
2752 : : else
2753 : : /* Another store not part of the final sequence. Simply push it. */
2754 : 11133 : seq.safe_push (seq_entry (data->ref, sm_other,
2755 : 11133 : gimple_assign_rhs1 (def)));
2756 : :
2757 : 80305 : vdef = gimple_vuse (def);
2758 : : }
2759 : : while (1);
2760 : : }
2761 : :
2762 : : /* Hoists memory references MEM_REFS out of LOOP. EXITS is the list of exit
2763 : : edges of the LOOP. */
2764 : :
2765 : : static void
2766 : 21200 : hoist_memory_references (class loop *loop, bitmap mem_refs,
2767 : : const vec<edge> &exits)
2768 : : {
2769 : 21200 : im_mem_ref *ref;
2770 : 21200 : unsigned i;
2771 : 21200 : bitmap_iterator bi;
2772 : :
2773 : : /* There's a special case we can use ordered re-materialization for
2774 : : conditionally excuted stores which is when all stores in the loop
2775 : : happen in the same basic-block. In that case we know we'll reach
2776 : : all stores and thus can simply process that BB and emit a single
2777 : : conditional block of ordered materializations. See PR102436. */
2778 : 21200 : basic_block single_store_bb = NULL;
2779 : 31083 : EXECUTE_IF_SET_IN_BITMAP (&memory_accesses.all_refs_stored_in_loop[loop->num],
2780 : : 0, i, bi)
2781 : : {
2782 : 28971 : bool fail = false;
2783 : 28971 : ref = memory_accesses.refs_list[i];
2784 : 132758 : for (auto loc : ref->accesses_in_loop)
2785 : 142854 : if (!gimple_vdef (loc.stmt))
2786 : : ;
2787 : 32076 : else if (!single_store_bb)
2788 : : {
2789 : 21200 : single_store_bb = gimple_bb (loc.stmt);
2790 : 21200 : bool conditional = false;
2791 : 76137 : for (edge e : exits)
2792 : 22804 : if (!dominated_by_p (CDI_DOMINATORS, e->src, single_store_bb))
2793 : : {
2794 : : /* Conditional as seen from e. */
2795 : : conditional = true;
2796 : : break;
2797 : : }
2798 : 21200 : if (!conditional)
2799 : : {
2800 : : fail = true;
2801 : : break;
2802 : : }
2803 : : }
2804 : 10876 : else if (single_store_bb != gimple_bb (loc.stmt))
2805 : : {
2806 : : fail = true;
2807 : : break;
2808 : : }
2809 : 28971 : if (fail)
2810 : : {
2811 : : single_store_bb = NULL;
2812 : : break;
2813 : : }
2814 : : }
2815 : 21200 : if (single_store_bb)
2816 : : {
2817 : : /* Analyze the single block with stores. */
2818 : 2112 : auto_bitmap fully_visited;
2819 : 2112 : auto_bitmap refs_not_supported;
2820 : 2112 : auto_bitmap refs_not_in_seq;
2821 : 2112 : auto_vec<seq_entry> seq;
2822 : 2112 : bitmap_copy (refs_not_in_seq, mem_refs);
2823 : 2112 : int res = sm_seq_valid_bb (loop, single_store_bb, NULL_TREE,
2824 : : seq, refs_not_in_seq, refs_not_supported,
2825 : : false, fully_visited);
2826 : 2112 : if (res != 1)
2827 : : {
2828 : : /* Unhandled refs can still fail this. */
2829 : 0 : bitmap_clear (mem_refs);
2830 : 0 : return;
2831 : : }
2832 : :
2833 : : /* We cannot handle sm_other since we neither remember the
2834 : : stored location nor the value at the point we execute them. */
2835 : 5167 : for (unsigned i = 0; i < seq.length (); ++i)
2836 : : {
2837 : 3055 : unsigned new_i;
2838 : 3055 : if (seq[i].second == sm_other
2839 : 3055 : && seq[i].from != NULL_TREE)
2840 : 450 : seq[i].from = NULL_TREE;
2841 : 2605 : else if ((seq[i].second == sm_ord
2842 : 0 : || (seq[i].second == sm_other
2843 : 0 : && seq[i].from != NULL_TREE))
2844 : 2605 : && !sm_seq_push_down (seq, i, &new_i))
2845 : : {
2846 : 105 : bitmap_set_bit (refs_not_supported, seq[new_i].first);
2847 : 105 : seq[new_i].second = sm_other;
2848 : 105 : seq[new_i].from = NULL_TREE;
2849 : : }
2850 : : }
2851 : 2112 : bitmap_and_compl_into (mem_refs, refs_not_supported);
2852 : 2112 : if (bitmap_empty_p (mem_refs))
2853 : : return;
2854 : :
2855 : : /* Prune seq. */
2856 : 2383 : while (seq.last ().second == sm_other
2857 : 2383 : && seq.last ().from == NULL_TREE)
2858 : 364 : seq.pop ();
2859 : :
2860 : 2019 : hash_map<im_mem_ref *, sm_aux *> aux_map;
2861 : :
2862 : : /* Execute SM but delay the store materialization for ordered
2863 : : sequences on exit. Remember a created flag var and make
2864 : : sure to re-use it. */
2865 : 2019 : sm_aux *flag_var_aux = nullptr;
2866 : 4519 : EXECUTE_IF_SET_IN_BITMAP (mem_refs, 0, i, bi)
2867 : : {
2868 : 2500 : ref = memory_accesses.refs_list[i];
2869 : 2500 : sm_aux *aux = execute_sm (loop, ref, aux_map, true,
2870 : : flag_var_aux != nullptr);
2871 : 2500 : if (aux->store_flag)
2872 : 1460 : flag_var_aux = aux;
2873 : : }
2874 : :
2875 : : /* Materialize ordered store sequences on exits. */
2876 : 2019 : edge e;
2877 : 2019 : auto_bitmap clobbers_to_prune;
2878 : 5403 : FOR_EACH_VEC_ELT (exits, i, e)
2879 : : {
2880 : 3384 : edge append_cond_position = NULL;
2881 : 3384 : edge last_cond_fallthru = NULL;
2882 : 3384 : edge insert_e = e;
2883 : : /* Construct the single flag variable control flow and insert
2884 : : the ordered seq of stores in the then block. With
2885 : : -fstore-data-races we can do the stores unconditionally. */
2886 : 3384 : if (flag_var_aux)
2887 : 2286 : insert_e
2888 : : = single_pred_edge
2889 : 2286 : (execute_sm_if_changed (e, NULL_TREE, NULL_TREE,
2890 : : flag_var_aux->store_flag,
2891 : : loop_preheader_edge (loop),
2892 : : &flag_var_aux->flag_bbs,
2893 : : append_cond_position,
2894 : : last_cond_fallthru));
2895 : 3384 : execute_sm_exit (loop, insert_e, seq, aux_map, sm_ord,
2896 : : append_cond_position, last_cond_fallthru,
2897 : : clobbers_to_prune);
2898 : 3384 : gsi_commit_one_edge_insert (insert_e, NULL);
2899 : : }
2900 : :
2901 : : /* Remove clobbers inside the loop we re-materialized on exits. */
2902 : 2019 : EXECUTE_IF_SET_IN_BITMAP (clobbers_to_prune, 0, i, bi)
2903 : : {
2904 : 0 : gimple *stmt = memory_accesses.refs_list[i]->accesses_in_loop[0].stmt;
2905 : 0 : gimple_stmt_iterator gsi = gsi_for_stmt (stmt);
2906 : 0 : unlink_stmt_vdef (stmt);
2907 : 0 : release_defs (stmt);
2908 : 0 : gimple_set_vdef (stmt, NULL_TREE);
2909 : 0 : gsi_remove (&gsi, true);
2910 : : }
2911 : :
2912 : 4519 : for (hash_map<im_mem_ref *, sm_aux *>::iterator iter = aux_map.begin ();
2913 : 7019 : iter != aux_map.end (); ++iter)
2914 : 5000 : delete (*iter).second;
2915 : :
2916 : 2019 : return;
2917 : 4131 : }
2918 : :
2919 : : /* To address PR57359 before actually applying store-motion check
2920 : : the candidates found for validity with regards to reordering
2921 : : relative to other stores which we until here disambiguated using
2922 : : TBAA which isn't valid.
2923 : : What matters is the order of the last stores to the mem_refs
2924 : : with respect to the other stores of the loop at the point of the
2925 : : loop exits. */
2926 : :
2927 : : /* For each exit compute the store order, pruning from mem_refs
2928 : : on the fly. */
2929 : : /* The complexity of this is at least
2930 : : O(number of exits * number of SM refs) but more approaching
2931 : : O(number of exits * number of SM refs * number of stores). */
2932 : : /* ??? Somehow do this in a single sweep over the loop body. */
2933 : 19088 : auto_vec<std::pair<edge, vec<seq_entry> > > sms;
2934 : 19088 : auto_bitmap refs_not_supported (&lim_bitmap_obstack);
2935 : 19088 : edge e;
2936 : 38932 : FOR_EACH_VEC_ELT (exits, i, e)
2937 : : {
2938 : 22366 : vec<seq_entry> seq;
2939 : 22366 : seq.create (4);
2940 : 22366 : auto_bitmap refs_not_in_seq (&lim_bitmap_obstack);
2941 : 22366 : bitmap_and_compl (refs_not_in_seq, mem_refs, refs_not_supported);
2942 : 22366 : if (bitmap_empty_p (refs_not_in_seq))
2943 : : {
2944 : 1744 : seq.release ();
2945 : 1744 : break;
2946 : : }
2947 : 20622 : auto_bitmap fully_visited;
2948 : 20622 : int res = sm_seq_valid_bb (loop, e->src, NULL_TREE,
2949 : : seq, refs_not_in_seq,
2950 : : refs_not_supported, false,
2951 : : fully_visited);
2952 : 20622 : if (res != 1)
2953 : : {
2954 : 778 : bitmap_copy (refs_not_supported, mem_refs);
2955 : 778 : seq.release ();
2956 : 778 : break;
2957 : : }
2958 : 19844 : sms.safe_push (std::make_pair (e, seq));
2959 : 23144 : }
2960 : :
2961 : : /* Prune pruned mem_refs from earlier processed exits. */
2962 : 19088 : bool changed = !bitmap_empty_p (refs_not_supported);
2963 : 19088 : while (changed)
2964 : : {
2965 : 6297 : changed = false;
2966 : 6297 : std::pair<edge, vec<seq_entry> > *seq;
2967 : 40479 : FOR_EACH_VEC_ELT (sms, i, seq)
2968 : : {
2969 : : bool need_to_push = false;
2970 : 13724 : for (unsigned i = 0; i < seq->second.length (); ++i)
2971 : : {
2972 : 6177 : sm_kind kind = seq->second[i].second;
2973 : 6177 : if (kind == sm_other && seq->second[i].from == NULL_TREE)
2974 : : break;
2975 : 5293 : unsigned id = seq->second[i].first;
2976 : 5293 : unsigned new_idx;
2977 : 5293 : if (kind == sm_ord
2978 : 5293 : && bitmap_bit_p (refs_not_supported, id))
2979 : : {
2980 : 2428 : seq->second[i].second = sm_other;
2981 : 2428 : gcc_assert (seq->second[i].from == NULL_TREE);
2982 : : need_to_push = true;
2983 : : }
2984 : 2865 : else if (need_to_push
2985 : 2865 : && !sm_seq_push_down (seq->second, i, &new_idx))
2986 : : {
2987 : : /* We need to push down both sm_ord and sm_other
2988 : : but for the latter we need to disqualify all
2989 : : following refs. */
2990 : 107 : if (kind == sm_ord)
2991 : : {
2992 : 7 : if (bitmap_set_bit (refs_not_supported, id))
2993 : 7 : changed = true;
2994 : 7 : seq->second[new_idx].second = sm_other;
2995 : : }
2996 : : else
2997 : : {
2998 : 379 : for (unsigned j = seq->second.length () - 1;
2999 : 279 : j > new_idx; --j)
3000 : 179 : if (seq->second[j].second == sm_ord
3001 : 285 : && bitmap_set_bit (refs_not_supported,
3002 : 106 : seq->second[j].first))
3003 : : changed = true;
3004 : 100 : seq->second.truncate (new_idx);
3005 : 100 : break;
3006 : : }
3007 : : }
3008 : : }
3009 : : }
3010 : : }
3011 : 19088 : std::pair<edge, vec<seq_entry> > *seq;
3012 : 58776 : FOR_EACH_VEC_ELT (sms, i, seq)
3013 : : {
3014 : : /* Prune sm_other from the end. */
3015 : 62384 : while (!seq->second.is_empty ()
3016 : 42540 : && seq->second.last ().second == sm_other)
3017 : 4703 : seq->second.pop ();
3018 : : /* Prune duplicates from the start. */
3019 : 19844 : auto_bitmap seen (&lim_bitmap_obstack);
3020 : 19844 : unsigned j, k;
3021 : 46788 : for (j = k = 0; j < seq->second.length (); ++j)
3022 : 26944 : if (bitmap_set_bit (seen, seq->second[j].first))
3023 : : {
3024 : 26833 : if (k != j)
3025 : 79 : seq->second[k] = seq->second[j];
3026 : 26833 : ++k;
3027 : : }
3028 : 19844 : seq->second.truncate (k);
3029 : : /* And verify. */
3030 : 19844 : seq_entry *e;
3031 : 86365 : FOR_EACH_VEC_ELT (seq->second, j, e)
3032 : 26833 : gcc_assert (e->second == sm_ord
3033 : : || (e->second == sm_other && e->from != NULL_TREE));
3034 : 19844 : }
3035 : :
3036 : : /* Verify dependence for refs we cannot handle with the order preserving
3037 : : code (refs_not_supported) or prune them from mem_refs. */
3038 : 19088 : auto_vec<seq_entry> unord_refs;
3039 : 35136 : EXECUTE_IF_SET_IN_BITMAP (refs_not_supported, 0, i, bi)
3040 : : {
3041 : 16048 : ref = memory_accesses.refs_list[i];
3042 : 16048 : if (!ref_indep_loop_p (loop, ref, sm_waw))
3043 : 6803 : bitmap_clear_bit (mem_refs, i);
3044 : : /* We've now verified store order for ref with respect to all other
3045 : : stores in the loop does not matter. */
3046 : : else
3047 : 9245 : unord_refs.safe_push (seq_entry (i, sm_unord));
3048 : : }
3049 : :
3050 : 19088 : hash_map<im_mem_ref *, sm_aux *> aux_map;
3051 : :
3052 : : /* Execute SM but delay the store materialization for ordered
3053 : : sequences on exit. */
3054 : 50868 : EXECUTE_IF_SET_IN_BITMAP (mem_refs, 0, i, bi)
3055 : : {
3056 : 31780 : ref = memory_accesses.refs_list[i];
3057 : 31780 : execute_sm (loop, ref, aux_map, bitmap_bit_p (refs_not_supported, i),
3058 : : false);
3059 : : }
3060 : :
3061 : : /* Materialize ordered store sequences on exits. */
3062 : 19088 : auto_bitmap clobbers_to_prune;
3063 : 43343 : FOR_EACH_VEC_ELT (exits, i, e)
3064 : : {
3065 : 24255 : edge append_cond_position = NULL;
3066 : 24255 : edge last_cond_fallthru = NULL;
3067 : 24255 : if (i < sms.length ())
3068 : : {
3069 : 19844 : gcc_assert (sms[i].first == e);
3070 : 19844 : execute_sm_exit (loop, e, sms[i].second, aux_map, sm_ord,
3071 : : append_cond_position, last_cond_fallthru,
3072 : : clobbers_to_prune);
3073 : 19844 : sms[i].second.release ();
3074 : : }
3075 : 24255 : if (!unord_refs.is_empty ())
3076 : 9963 : execute_sm_exit (loop, e, unord_refs, aux_map, sm_unord,
3077 : : append_cond_position, last_cond_fallthru,
3078 : : clobbers_to_prune);
3079 : : /* Commit edge inserts here to preserve the order of stores
3080 : : when an exit exits multiple loops. */
3081 : 24255 : gsi_commit_one_edge_insert (e, NULL);
3082 : : }
3083 : :
3084 : : /* Remove clobbers inside the loop we re-materialized on exits. */
3085 : 19239 : EXECUTE_IF_SET_IN_BITMAP (clobbers_to_prune, 0, i, bi)
3086 : : {
3087 : 151 : gimple *stmt = memory_accesses.refs_list[i]->accesses_in_loop[0].stmt;
3088 : 151 : gimple_stmt_iterator gsi = gsi_for_stmt (stmt);
3089 : 151 : unlink_stmt_vdef (stmt);
3090 : 151 : release_defs (stmt);
3091 : 151 : gimple_set_vdef (stmt, NULL_TREE);
3092 : 151 : gsi_remove (&gsi, true);
3093 : : }
3094 : :
3095 : 50868 : for (hash_map<im_mem_ref *, sm_aux *>::iterator iter = aux_map.begin ();
3096 : 101736 : iter != aux_map.end (); ++iter)
3097 : 63560 : delete (*iter).second;
3098 : 19088 : }
3099 : :
3100 : : class ref_always_accessed
3101 : : {
3102 : : public:
3103 : 92314 : ref_always_accessed (class loop *loop_, bool stored_p_)
3104 : 92314 : : loop (loop_), stored_p (stored_p_) {}
3105 : : bool operator () (mem_ref_loc *loc);
3106 : : class loop *loop;
3107 : : bool stored_p;
3108 : : };
3109 : :
3110 : : bool
3111 : 190918 : ref_always_accessed::operator () (mem_ref_loc *loc)
3112 : : {
3113 : 190918 : class loop *must_exec;
3114 : :
3115 : 190918 : struct lim_aux_data *lim_data = get_lim_data (loc->stmt);
3116 : 190918 : if (!lim_data)
3117 : : return false;
3118 : :
3119 : : /* If we require an always executed store make sure the statement
3120 : : is a store. */
3121 : 190918 : if (stored_p)
3122 : : {
3123 : 190918 : tree lhs = gimple_get_lhs (loc->stmt);
3124 : 190918 : if (!lhs
3125 : 190918 : || !(DECL_P (lhs) || REFERENCE_CLASS_P (lhs)))
3126 : : return false;
3127 : : }
3128 : :
3129 : 114422 : must_exec = lim_data->always_executed_in;
3130 : 114422 : if (!must_exec)
3131 : : return false;
3132 : :
3133 : 36369 : if (must_exec == loop
3134 : 36369 : || flow_loop_nested_p (must_exec, loop))
3135 : 33055 : return true;
3136 : :
3137 : : return false;
3138 : : }
3139 : :
3140 : : /* Returns true if REF is always accessed in LOOP. If STORED_P is true
3141 : : make sure REF is always stored to in LOOP. */
3142 : :
3143 : : static bool
3144 : 92314 : ref_always_accessed_p (class loop *loop, im_mem_ref *ref, bool stored_p)
3145 : : {
3146 : 34280 : return for_all_locs_in_loop (loop, ref,
3147 : 92314 : ref_always_accessed (loop, stored_p));
3148 : : }
3149 : :
3150 : : /* Returns true if REF1 and REF2 are independent. */
3151 : :
3152 : : static bool
3153 : 614533 : refs_independent_p (im_mem_ref *ref1, im_mem_ref *ref2, bool tbaa_p)
3154 : : {
3155 : 614533 : if (ref1 == ref2)
3156 : : return true;
3157 : :
3158 : 552597 : if (dump_file && (dump_flags & TDF_DETAILS))
3159 : 3031 : fprintf (dump_file, "Querying dependency of refs %u and %u: ",
3160 : 3031 : ref1->id, ref2->id);
3161 : :
3162 : 552597 : if (mem_refs_may_alias_p (ref1, ref2, &memory_accesses.ttae_cache, tbaa_p))
3163 : : {
3164 : 65288 : if (dump_file && (dump_flags & TDF_DETAILS))
3165 : 94 : fprintf (dump_file, "dependent.\n");
3166 : 65288 : return false;
3167 : : }
3168 : : else
3169 : : {
3170 : 487309 : if (dump_file && (dump_flags & TDF_DETAILS))
3171 : 2937 : fprintf (dump_file, "independent.\n");
3172 : 487309 : return true;
3173 : : }
3174 : : }
3175 : :
3176 : : /* Returns true if REF is independent on all other accessess in LOOP.
3177 : : KIND specifies the kind of dependence to consider.
3178 : : lim_raw assumes REF is not stored in LOOP and disambiguates RAW
3179 : : dependences so if true REF can be hoisted out of LOOP
3180 : : sm_war disambiguates a store REF against all other loads to see
3181 : : whether the store can be sunk across loads out of LOOP
3182 : : sm_waw disambiguates a store REF against all other stores to see
3183 : : whether the store can be sunk across stores out of LOOP. */
3184 : :
3185 : : static bool
3186 : 1834586 : ref_indep_loop_p (class loop *loop, im_mem_ref *ref, dep_kind kind)
3187 : : {
3188 : 1834586 : bool indep_p = true;
3189 : 1834586 : bitmap refs_to_check;
3190 : :
3191 : 1834586 : if (kind == sm_war)
3192 : 804131 : refs_to_check = &memory_accesses.refs_loaded_in_loop[loop->num];
3193 : : else
3194 : 1030455 : refs_to_check = &memory_accesses.refs_stored_in_loop[loop->num];
3195 : :
3196 : 1834586 : if (bitmap_bit_p (refs_to_check, UNANALYZABLE_MEM_ID)
3197 : 1834586 : || ref->mem.ref == error_mark_node)
3198 : : indep_p = false;
3199 : : else
3200 : : {
3201 : : /* tri-state, { unknown, independent, dependent } */
3202 : 615394 : dep_state state = query_loop_dependence (loop, ref, kind);
3203 : 615394 : if (state != dep_unknown)
3204 : 0 : return state == dep_independent ? true : false;
3205 : :
3206 : 615394 : class loop *inner = loop->inner;
3207 : 770337 : while (inner)
3208 : : {
3209 : 406400 : if (!ref_indep_loop_p (inner, ref, kind))
3210 : : {
3211 : : indep_p = false;
3212 : : break;
3213 : : }
3214 : 154943 : inner = inner->next;
3215 : : }
3216 : :
3217 : 615394 : if (indep_p)
3218 : : {
3219 : 363937 : unsigned i;
3220 : 363937 : bitmap_iterator bi;
3221 : 949527 : EXECUTE_IF_SET_IN_BITMAP (refs_to_check, 0, i, bi)
3222 : : {
3223 : 655379 : im_mem_ref *aref = memory_accesses.refs_list[i];
3224 : 655379 : if (aref->mem.ref == error_mark_node)
3225 : : {
3226 : 41712 : gimple *stmt = aref->accesses_in_loop[0].stmt;
3227 : 41712 : if ((kind == sm_war
3228 : 16502 : && ref_maybe_used_by_stmt_p (stmt, &ref->mem,
3229 : : kind != sm_waw))
3230 : 57598 : || stmt_may_clobber_ref_p_1 (stmt, &ref->mem,
3231 : : kind != sm_waw))
3232 : : {
3233 : : indep_p = false;
3234 : : break;
3235 : : }
3236 : : }
3237 : 613667 : else if (!refs_independent_p (ref, aref, kind != sm_waw))
3238 : : {
3239 : : indep_p = false;
3240 : : break;
3241 : : }
3242 : : }
3243 : : }
3244 : : }
3245 : :
3246 : 1834586 : if (dump_file && (dump_flags & TDF_DETAILS))
3247 : 735 : fprintf (dump_file, "Querying %s dependencies of ref %u in loop %d: %s\n",
3248 : : kind == lim_raw ? "RAW" : (kind == sm_war ? "SM WAR" : "SM WAW"),
3249 : 357 : ref->id, loop->num, indep_p ? "independent" : "dependent");
3250 : :
3251 : : /* Record the computed result in the cache. */
3252 : 1834586 : record_loop_dependence (loop, ref, kind,
3253 : : indep_p ? dep_independent : dep_dependent);
3254 : :
3255 : 1834586 : return indep_p;
3256 : : }
3257 : :
3258 : : class ref_in_loop_hot_body
3259 : : {
3260 : : public:
3261 : 42089 : ref_in_loop_hot_body (class loop *loop_) : l (loop_) {}
3262 : : bool operator () (mem_ref_loc *loc);
3263 : : class loop *l;
3264 : : };
3265 : :
3266 : : /* Check the coldest loop between loop L and innermost loop. If there is one
3267 : : cold loop between L and INNER_LOOP, store motion can be performed, otherwise
3268 : : no cold loop means no store motion. get_coldest_out_loop also handles cases
3269 : : when l is inner_loop. */
3270 : : bool
3271 : 42866 : ref_in_loop_hot_body::operator () (mem_ref_loc *loc)
3272 : : {
3273 : 42866 : basic_block curr_bb = gimple_bb (loc->stmt);
3274 : 42866 : class loop *inner_loop = curr_bb->loop_father;
3275 : 42866 : return get_coldest_out_loop (l, inner_loop, curr_bb);
3276 : : }
3277 : :
3278 : :
3279 : : /* Returns true if we can perform store motion of REF from LOOP. */
3280 : :
3281 : : static bool
3282 : 2686961 : can_sm_ref_p (class loop *loop, im_mem_ref *ref)
3283 : : {
3284 : 2686961 : tree base;
3285 : :
3286 : : /* Can't hoist unanalyzable refs. */
3287 : 2686961 : if (!MEM_ANALYZABLE (ref))
3288 : : return false;
3289 : :
3290 : : /* Can't hoist/sink aggregate copies. */
3291 : 2337517 : if (ref->mem.ref == error_mark_node)
3292 : : return false;
3293 : :
3294 : : /* It should be movable. */
3295 : 1875732 : if (!is_gimple_reg_type (TREE_TYPE (ref->mem.ref))
3296 : 1875418 : || TREE_THIS_VOLATILE (ref->mem.ref)
3297 : 3734336 : || !for_each_index (&ref->mem.ref, may_move_till, loop))
3298 : 1081069 : return false;
3299 : :
3300 : : /* If it can throw fail, we do not properly update EH info. */
3301 : 794663 : if (tree_could_throw_p (ref->mem.ref))
3302 : : return false;
3303 : :
3304 : : /* If it can trap, it must be always executed in LOOP.
3305 : : Readonly memory locations may trap when storing to them, but
3306 : : tree_could_trap_p is a predicate for rvalues, so check that
3307 : : explicitly. */
3308 : 779571 : base = get_base_address (ref->mem.ref);
3309 : 779571 : if ((tree_could_trap_p (ref->mem.ref)
3310 : 721753 : || (DECL_P (base) && TREE_READONLY (base))
3311 : 721545 : || TREE_CODE (base) == STRING_CST)
3312 : : /* ??? We can at least use false here, allowing loads? We
3313 : : are forcing conditional stores if the ref is not always
3314 : : stored to later anyway. So this would only guard
3315 : : the load we need to emit. Thus when the ref is not
3316 : : loaded we can elide this completely? */
3317 : 837605 : && !ref_always_accessed_p (loop, ref, true))
3318 : : return false;
3319 : :
3320 : : /* Verify all loads of ref can be hoisted. */
3321 : 732179 : if (ref->loaded
3322 : 89249 : && bitmap_bit_p (ref->loaded, loop->num)
3323 : 816177 : && !ref_indep_loop_p (loop, ref, lim_raw))
3324 : : return false;
3325 : :
3326 : : /* Verify the candidate can be disambiguated against all loads,
3327 : : that is, we can elide all in-loop stores. Disambiguation
3328 : : against stores is done later when we cannot guarantee preserving
3329 : : the order of stores. */
3330 : 672122 : if (!ref_indep_loop_p (loop, ref, sm_war))
3331 : : return false;
3332 : :
3333 : : /* Verify whether the candidate is hot for LOOP. Only do store motion if the
3334 : : candidate's profile count is hot. Statement in cold BB shouldn't be moved
3335 : : out of it's loop_father. */
3336 : 42089 : if (!for_all_locs_in_loop (loop, ref, ref_in_loop_hot_body (loop)))
3337 : : return false;
3338 : :
3339 : : return true;
3340 : : }
3341 : :
3342 : : /* Marks the references in LOOP for that store motion should be performed
3343 : : in REFS_TO_SM. SM_EXECUTED is the set of references for that store
3344 : : motion was performed in one of the outer loops. */
3345 : :
3346 : : static void
3347 : 1255739 : find_refs_for_sm (class loop *loop, bitmap sm_executed, bitmap refs_to_sm)
3348 : : {
3349 : 1255739 : bitmap refs = &memory_accesses.all_refs_stored_in_loop[loop->num];
3350 : 1255739 : unsigned i;
3351 : 1255739 : bitmap_iterator bi;
3352 : 1255739 : im_mem_ref *ref;
3353 : :
3354 : 3942700 : EXECUTE_IF_AND_COMPL_IN_BITMAP (refs, sm_executed, 0, i, bi)
3355 : : {
3356 : 2686961 : ref = memory_accesses.refs_list[i];
3357 : 2686961 : if (can_sm_ref_p (loop, ref) && dbg_cnt (lim))
3358 : 41192 : bitmap_set_bit (refs_to_sm, i);
3359 : : }
3360 : 1255739 : }
3361 : :
3362 : : /* Checks whether LOOP (with exits stored in EXITS array) is suitable
3363 : : for a store motion optimization (i.e. whether we can insert statement
3364 : : on its exits). */
3365 : :
3366 : : static bool
3367 : 1309933 : loop_suitable_for_sm (class loop *loop ATTRIBUTE_UNUSED,
3368 : : const vec<edge> &exits)
3369 : : {
3370 : 1309933 : unsigned i;
3371 : 1309933 : edge ex;
3372 : :
3373 : 3366291 : FOR_EACH_VEC_ELT (exits, i, ex)
3374 : 2110552 : if (ex->flags & (EDGE_ABNORMAL | EDGE_EH))
3375 : : return false;
3376 : :
3377 : : return true;
3378 : : }
3379 : :
3380 : : /* Try to perform store motion for all memory references modified inside
3381 : : LOOP. SM_EXECUTED is the bitmap of the memory references for that
3382 : : store motion was executed in one of the outer loops. */
3383 : :
3384 : : static void
3385 : 1309933 : store_motion_loop (class loop *loop, bitmap sm_executed)
3386 : : {
3387 : 1309933 : auto_vec<edge> exits = get_loop_exit_edges (loop);
3388 : 1309933 : class loop *subloop;
3389 : 1309933 : bitmap sm_in_loop = BITMAP_ALLOC (&lim_bitmap_obstack);
3390 : :
3391 : 1309933 : if (loop_suitable_for_sm (loop, exits))
3392 : : {
3393 : 1255739 : find_refs_for_sm (loop, sm_executed, sm_in_loop);
3394 : 1255739 : if (!bitmap_empty_p (sm_in_loop))
3395 : 21200 : hoist_memory_references (loop, sm_in_loop, exits);
3396 : : }
3397 : :
3398 : 1309933 : bitmap_ior_into (sm_executed, sm_in_loop);
3399 : 1613844 : for (subloop = loop->inner; subloop != NULL; subloop = subloop->next)
3400 : 303911 : store_motion_loop (subloop, sm_executed);
3401 : 1309933 : bitmap_and_compl_into (sm_executed, sm_in_loop);
3402 : 1309933 : BITMAP_FREE (sm_in_loop);
3403 : 1309933 : }
3404 : :
3405 : : /* Try to perform store motion for all memory references modified inside
3406 : : loops. */
3407 : :
3408 : : static void
3409 : 477350 : do_store_motion (void)
3410 : : {
3411 : 477350 : class loop *loop;
3412 : 477350 : bitmap sm_executed = BITMAP_ALLOC (&lim_bitmap_obstack);
3413 : :
3414 : 1483372 : for (loop = current_loops->tree_root->inner; loop != NULL; loop = loop->next)
3415 : 1006022 : store_motion_loop (loop, sm_executed);
3416 : :
3417 : 477350 : BITMAP_FREE (sm_executed);
3418 : 477350 : }
3419 : :
3420 : : /* Fills ALWAYS_EXECUTED_IN information for basic blocks of LOOP, i.e.
3421 : : for each such basic block bb records the outermost loop for that execution
3422 : : of its header implies execution of bb. CONTAINS_CALL is the bitmap of
3423 : : blocks that contain a nonpure call. */
3424 : :
3425 : : static void
3426 : 1310134 : fill_always_executed_in_1 (class loop *loop, sbitmap contains_call)
3427 : : {
3428 : 1310134 : basic_block bb = NULL, last = NULL;
3429 : 1310134 : edge e;
3430 : 1310134 : class loop *inn_loop = loop;
3431 : :
3432 : 1310134 : if (ALWAYS_EXECUTED_IN (loop->header) == NULL)
3433 : : {
3434 : 1192523 : auto_vec<basic_block, 64> worklist;
3435 : 1192523 : worklist.reserve_exact (loop->num_nodes);
3436 : 1192523 : worklist.quick_push (loop->header);
3437 : 2632223 : do
3438 : : {
3439 : 2632223 : edge_iterator ei;
3440 : 2632223 : bb = worklist.pop ();
3441 : :
3442 : 2632223 : if (!flow_bb_inside_loop_p (inn_loop, bb))
3443 : : {
3444 : : /* When we are leaving a possibly infinite inner loop
3445 : : we have to stop processing. */
3446 : 157339 : if (!finite_loop_p (inn_loop))
3447 : : break;
3448 : : /* If the loop was finite we can continue with processing
3449 : : the loop we exited to. */
3450 : 148815 : inn_loop = bb->loop_father;
3451 : : }
3452 : :
3453 : 2623699 : if (dominated_by_p (CDI_DOMINATORS, loop->latch, bb))
3454 : 1533549 : last = bb;
3455 : :
3456 : 2623699 : if (bitmap_bit_p (contains_call, bb->index))
3457 : : break;
3458 : :
3459 : : /* If LOOP exits from this BB stop processing. */
3460 : 5024458 : FOR_EACH_EDGE (e, ei, bb->succs)
3461 : 3575203 : if (!flow_bb_inside_loop_p (loop, e->dest))
3462 : : break;
3463 : 2317689 : if (e)
3464 : : break;
3465 : :
3466 : : /* A loop might be infinite (TODO use simple loop analysis
3467 : : to disprove this if possible). */
3468 : 1449255 : if (bb->flags & BB_IRREDUCIBLE_LOOP)
3469 : : break;
3470 : :
3471 : 1449166 : if (bb->loop_father->header == bb)
3472 : : /* Record that we enter into a subloop since it might not
3473 : : be finite. */
3474 : : /* ??? Entering into a not always executed subloop makes
3475 : : fill_always_executed_in quadratic in loop depth since
3476 : : we walk those loops N times. This is not a problem
3477 : : in practice though, see PR102253 for a worst-case testcase. */
3478 : 546071 : inn_loop = bb->loop_father;
3479 : :
3480 : : /* Walk the body of LOOP sorted by dominance relation. Additionally,
3481 : : if a basic block S dominates the latch, then only blocks dominated
3482 : : by S are after it.
3483 : : This is get_loop_body_in_dom_order using a worklist algorithm and
3484 : : stopping once we are no longer interested in visiting further
3485 : : blocks. */
3486 : 1449166 : unsigned old_len = worklist.length ();
3487 : 1449166 : unsigned postpone = 0;
3488 : 1449166 : for (basic_block son = first_dom_son (CDI_DOMINATORS, bb);
3489 : 3136249 : son;
3490 : 1687083 : son = next_dom_son (CDI_DOMINATORS, son))
3491 : : {
3492 : 1687083 : if (!flow_bb_inside_loop_p (loop, son))
3493 : 18803 : continue;
3494 : 1668280 : if (dominated_by_p (CDI_DOMINATORS, loop->latch, son))
3495 : 469471 : postpone = worklist.length ();
3496 : 1668280 : worklist.quick_push (son);
3497 : : }
3498 : 1449166 : if (postpone)
3499 : : /* Postponing the block that dominates the latch means
3500 : : processing it last and thus putting it earliest in the
3501 : : worklist. */
3502 : 142508 : std::swap (worklist[old_len], worklist[postpone]);
3503 : : }
3504 : 2898332 : while (!worklist.is_empty ());
3505 : :
3506 : 1874575 : while (1)
3507 : : {
3508 : 1533549 : if (dump_enabled_p ())
3509 : 1695 : dump_printf (MSG_NOTE, "BB %d is always executed in loop %d\n",
3510 : : last->index, loop->num);
3511 : 1533549 : SET_ALWAYS_EXECUTED_IN (last, loop);
3512 : 1533549 : if (last == loop->header)
3513 : : break;
3514 : 341026 : last = get_immediate_dominator (CDI_DOMINATORS, last);
3515 : : }
3516 : 1192523 : }
3517 : :
3518 : 1614156 : for (loop = loop->inner; loop; loop = loop->next)
3519 : 304022 : fill_always_executed_in_1 (loop, contains_call);
3520 : 1310134 : }
3521 : :
3522 : : /* Fills ALWAYS_EXECUTED_IN information for basic blocks, i.e.
3523 : : for each such basic block bb records the outermost loop for that execution
3524 : : of its header implies execution of bb. */
3525 : :
3526 : : static void
3527 : 477411 : fill_always_executed_in (void)
3528 : : {
3529 : 477411 : basic_block bb;
3530 : 477411 : class loop *loop;
3531 : :
3532 : 477411 : auto_sbitmap contains_call (last_basic_block_for_fn (cfun));
3533 : 477411 : bitmap_clear (contains_call);
3534 : 15193693 : FOR_EACH_BB_FN (bb, cfun)
3535 : : {
3536 : 14716282 : gimple_stmt_iterator gsi;
3537 : 118585872 : for (gsi = gsi_start_bb (bb); !gsi_end_p (gsi); gsi_next (&gsi))
3538 : : {
3539 : 96986533 : if (nonpure_call_p (gsi_stmt (gsi)))
3540 : : break;
3541 : : }
3542 : :
3543 : 14716282 : if (!gsi_end_p (gsi))
3544 : 3671140 : bitmap_set_bit (contains_call, bb->index);
3545 : : }
3546 : :
3547 : 1483523 : for (loop = current_loops->tree_root->inner; loop; loop = loop->next)
3548 : 1006112 : fill_always_executed_in_1 (loop, contains_call);
3549 : 477411 : }
3550 : :
3551 : : /* Find the coldest loop preheader for LOOP, also find the nearest hotter loop
3552 : : to LOOP. Then recursively iterate each inner loop. */
3553 : :
3554 : : void
3555 : 1310134 : fill_coldest_and_hotter_out_loop (class loop *coldest_loop,
3556 : : class loop *hotter_loop, class loop *loop)
3557 : : {
3558 : 1310134 : if (bb_colder_than_loop_preheader (loop_preheader_edge (loop)->src,
3559 : : coldest_loop))
3560 : 24476 : coldest_loop = loop;
3561 : :
3562 : 1310134 : coldest_outermost_loop[loop->num] = coldest_loop;
3563 : :
3564 : 1310134 : hotter_than_inner_loop[loop->num] = NULL;
3565 : 1310134 : class loop *outer_loop = loop_outer (loop);
3566 : 1310134 : if (hotter_loop
3567 : 1310134 : && bb_colder_than_loop_preheader (loop_preheader_edge (loop)->src,
3568 : : hotter_loop))
3569 : 2778 : hotter_than_inner_loop[loop->num] = hotter_loop;
3570 : :
3571 : 1310134 : if (outer_loop && outer_loop != current_loops->tree_root
3572 : 1614156 : && bb_colder_than_loop_preheader (loop_preheader_edge (loop)->src,
3573 : : outer_loop))
3574 : 30673 : hotter_than_inner_loop[loop->num] = outer_loop;
3575 : :
3576 : 1310134 : if (dump_enabled_p ())
3577 : : {
3578 : 1434 : dump_printf (MSG_NOTE, "loop %d's coldest_outermost_loop is %d, ",
3579 : : loop->num, coldest_loop->num);
3580 : 1434 : if (hotter_than_inner_loop[loop->num])
3581 : 137 : dump_printf (MSG_NOTE, "hotter_than_inner_loop is %d\n",
3582 : 137 : hotter_than_inner_loop[loop->num]->num);
3583 : : else
3584 : 1297 : dump_printf (MSG_NOTE, "hotter_than_inner_loop is NULL\n");
3585 : : }
3586 : :
3587 : 1310134 : class loop *inner_loop;
3588 : 1614156 : for (inner_loop = loop->inner; inner_loop; inner_loop = inner_loop->next)
3589 : 608044 : fill_coldest_and_hotter_out_loop (coldest_loop,
3590 : 304022 : hotter_than_inner_loop[loop->num],
3591 : : inner_loop);
3592 : 1310134 : }
3593 : :
3594 : : /* Compute the global information needed by the loop invariant motion pass. */
3595 : :
3596 : : static void
3597 : 477411 : tree_ssa_lim_initialize (bool store_motion)
3598 : : {
3599 : 477411 : unsigned i;
3600 : :
3601 : 477411 : bitmap_obstack_initialize (&lim_bitmap_obstack);
3602 : 477411 : gcc_obstack_init (&mem_ref_obstack);
3603 : 477411 : lim_aux_data_map = new hash_map<gimple *, lim_aux_data *>;
3604 : :
3605 : 477411 : if (flag_tm)
3606 : 104 : compute_transaction_bits ();
3607 : :
3608 : 477411 : memory_accesses.refs = new hash_table<mem_ref_hasher> (100);
3609 : 477411 : memory_accesses.refs_list.create (100);
3610 : : /* Allocate a special, unanalyzable mem-ref with ID zero. */
3611 : 477411 : memory_accesses.refs_list.quick_push
3612 : 477411 : (mem_ref_alloc (NULL, 0, UNANALYZABLE_MEM_ID));
3613 : :
3614 : 954822 : memory_accesses.refs_loaded_in_loop.create (number_of_loops (cfun));
3615 : 954822 : memory_accesses.refs_loaded_in_loop.quick_grow_cleared (number_of_loops (cfun));
3616 : 954822 : memory_accesses.refs_stored_in_loop.create (number_of_loops (cfun));
3617 : 954822 : memory_accesses.refs_stored_in_loop.quick_grow_cleared (number_of_loops (cfun));
3618 : 477411 : if (store_motion)
3619 : : {
3620 : 954700 : memory_accesses.all_refs_stored_in_loop.create (number_of_loops (cfun));
3621 : 477350 : memory_accesses.all_refs_stored_in_loop.quick_grow_cleared
3622 : 954700 : (number_of_loops (cfun));
3623 : : }
3624 : :
3625 : 5992316 : for (i = 0; i < number_of_loops (cfun); i++)
3626 : : {
3627 : 2518747 : bitmap_initialize (&memory_accesses.refs_loaded_in_loop[i],
3628 : : &lim_bitmap_obstack);
3629 : 2518747 : bitmap_initialize (&memory_accesses.refs_stored_in_loop[i],
3630 : : &lim_bitmap_obstack);
3631 : 2518747 : if (store_motion)
3632 : 2518455 : bitmap_initialize (&memory_accesses.all_refs_stored_in_loop[i],
3633 : : &lim_bitmap_obstack);
3634 : : }
3635 : :
3636 : 477411 : memory_accesses.ttae_cache = NULL;
3637 : :
3638 : : /* Initialize bb_loop_postorder with a mapping from loop->num to
3639 : : its postorder index. */
3640 : 477411 : i = 0;
3641 : 954822 : bb_loop_postorder = XNEWVEC (unsigned, number_of_loops (cfun));
3642 : 2742367 : for (auto loop : loops_list (cfun, LI_FROM_INNERMOST))
3643 : 1310134 : bb_loop_postorder[loop->num] = i++;
3644 : 477411 : }
3645 : :
3646 : : /* Cleans up after the invariant motion pass. */
3647 : :
3648 : : static void
3649 : 477411 : tree_ssa_lim_finalize (void)
3650 : : {
3651 : 477411 : basic_block bb;
3652 : 477411 : unsigned i;
3653 : 477411 : im_mem_ref *ref;
3654 : :
3655 : 15239709 : FOR_EACH_BB_FN (bb, cfun)
3656 : 14762298 : SET_ALWAYS_EXECUTED_IN (bb, NULL);
3657 : :
3658 : 477411 : bitmap_obstack_release (&lim_bitmap_obstack);
3659 : 954822 : delete lim_aux_data_map;
3660 : :
3661 : 477411 : delete memory_accesses.refs;
3662 : 477411 : memory_accesses.refs = NULL;
3663 : :
3664 : 5866621 : FOR_EACH_VEC_ELT (memory_accesses.refs_list, i, ref)
3665 : 5389210 : memref_free (ref);
3666 : 477411 : memory_accesses.refs_list.release ();
3667 : 477411 : obstack_free (&mem_ref_obstack, NULL);
3668 : :
3669 : 477411 : memory_accesses.refs_loaded_in_loop.release ();
3670 : 477411 : memory_accesses.refs_stored_in_loop.release ();
3671 : 477411 : memory_accesses.all_refs_stored_in_loop.release ();
3672 : :
3673 : 477411 : if (memory_accesses.ttae_cache)
3674 : 4206 : free_affine_expand_cache (&memory_accesses.ttae_cache);
3675 : :
3676 : 477411 : free (bb_loop_postorder);
3677 : :
3678 : 477411 : coldest_outermost_loop.release ();
3679 : 477411 : hotter_than_inner_loop.release ();
3680 : 477411 : }
3681 : :
3682 : : /* Moves invariants from loops. Only "expensive" invariants are moved out --
3683 : : i.e. those that are likely to be win regardless of the register pressure.
3684 : : Only perform store motion if STORE_MOTION is true. */
3685 : :
3686 : : unsigned int
3687 : 477411 : loop_invariant_motion_in_fun (function *fun, bool store_motion)
3688 : : {
3689 : 477411 : unsigned int todo = 0;
3690 : :
3691 : 477411 : tree_ssa_lim_initialize (store_motion);
3692 : :
3693 : 477411 : mark_ssa_maybe_undefs ();
3694 : :
3695 : : /* Gathers information about memory accesses in the loops. */
3696 : 477411 : analyze_memory_references (store_motion);
3697 : :
3698 : : /* Fills ALWAYS_EXECUTED_IN information for basic blocks. */
3699 : 477411 : fill_always_executed_in ();
3700 : :
3701 : : /* Pre-compute coldest outermost loop and nearest hotter loop of each loop.
3702 : : */
3703 : 477411 : class loop *loop;
3704 : 954822 : coldest_outermost_loop.create (number_of_loops (cfun));
3705 : 954822 : coldest_outermost_loop.safe_grow_cleared (number_of_loops (cfun));
3706 : 954822 : hotter_than_inner_loop.create (number_of_loops (cfun));
3707 : 954822 : hotter_than_inner_loop.safe_grow_cleared (number_of_loops (cfun));
3708 : 1483523 : for (loop = current_loops->tree_root->inner; loop != NULL; loop = loop->next)
3709 : 1006112 : fill_coldest_and_hotter_out_loop (loop, NULL, loop);
3710 : :
3711 : 477411 : int *rpo = XNEWVEC (int, last_basic_block_for_fn (fun));
3712 : 477411 : int n = pre_and_rev_post_order_compute_fn (fun, NULL, rpo, false);
3713 : :
3714 : : /* For each statement determine the outermost loop in that it is
3715 : : invariant and cost for computing the invariant. */
3716 : 15193693 : for (int i = 0; i < n; ++i)
3717 : 14716282 : compute_invariantness (BASIC_BLOCK_FOR_FN (fun, rpo[i]));
3718 : :
3719 : : /* Execute store motion. Force the necessary invariants to be moved
3720 : : out of the loops as well. */
3721 : 477411 : if (store_motion)
3722 : 477350 : do_store_motion ();
3723 : :
3724 : 477411 : free (rpo);
3725 : 477411 : rpo = XNEWVEC (int, last_basic_block_for_fn (fun));
3726 : 477411 : n = pre_and_rev_post_order_compute_fn (fun, NULL, rpo, false);
3727 : :
3728 : : /* Move the expressions that are expensive enough. */
3729 : 15239709 : for (int i = 0; i < n; ++i)
3730 : 14762298 : todo |= move_computations_worker (BASIC_BLOCK_FOR_FN (fun, rpo[i]));
3731 : :
3732 : 477411 : free (rpo);
3733 : :
3734 : 477411 : gsi_commit_edge_inserts ();
3735 : 477411 : if (need_ssa_update_p (fun))
3736 : 14728 : rewrite_into_loop_closed_ssa (NULL, TODO_update_ssa);
3737 : :
3738 : 477411 : tree_ssa_lim_finalize ();
3739 : :
3740 : 477411 : return todo;
3741 : : }
3742 : :
3743 : : /* Loop invariant motion pass. */
3744 : :
3745 : : namespace {
3746 : :
3747 : : const pass_data pass_data_lim =
3748 : : {
3749 : : GIMPLE_PASS, /* type */
3750 : : "lim", /* name */
3751 : : OPTGROUP_LOOP, /* optinfo_flags */
3752 : : TV_LIM, /* tv_id */
3753 : : PROP_cfg, /* properties_required */
3754 : : 0, /* properties_provided */
3755 : : 0, /* properties_destroyed */
3756 : : 0, /* todo_flags_start */
3757 : : 0, /* todo_flags_finish */
3758 : : };
3759 : :
3760 : : class pass_lim : public gimple_opt_pass
3761 : : {
3762 : : public:
3763 : 1140324 : pass_lim (gcc::context *ctxt)
3764 : 2280648 : : gimple_opt_pass (pass_data_lim, ctxt)
3765 : : {}
3766 : :
3767 : : /* opt_pass methods: */
3768 : 855243 : opt_pass * clone () final override { return new pass_lim (m_ctxt); }
3769 : 1261214 : bool gate (function *) final override { return flag_tree_loop_im != 0; }
3770 : : unsigned int execute (function *) final override;
3771 : :
3772 : : }; // class pass_lim
3773 : :
3774 : : unsigned int
3775 : 1260914 : pass_lim::execute (function *fun)
3776 : : {
3777 : 1260914 : in_loop_pipeline = scev_initialized_p ();
3778 : 1260914 : if (!in_loop_pipeline)
3779 : 1022458 : loop_optimizer_init (LOOPS_NORMAL | LOOPS_HAVE_RECORDED_EXITS);
3780 : :
3781 : 2521828 : if (number_of_loops (fun) <= 1)
3782 : : return 0;
3783 : 477366 : unsigned int todo = loop_invariant_motion_in_fun (fun, flag_move_loop_stores);
3784 : :
3785 : 477366 : if (!in_loop_pipeline)
3786 : 238910 : loop_optimizer_finalize ();
3787 : : else
3788 : 238456 : scev_reset ();
3789 : : return todo;
3790 : : }
3791 : :
3792 : : } // anon namespace
3793 : :
3794 : : gimple_opt_pass *
3795 : 285081 : make_pass_lim (gcc::context *ctxt)
3796 : : {
3797 : 285081 : return new pass_lim (ctxt);
3798 : : }
3799 : :
3800 : :
|